python数据处理之0值的替换和缺失值的填充

  • 零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串null
data['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})
  • 标记重复数据:用duplicated()方法
##todo  标记重复数据 并且增加新的一列dup来判断是否是重复的行 duplicated
data['dup'] = data.duplicated()
  • 去重:通过刚刚获得的 ‘ dup ’列的数据来进行去重
data_dup = data[data['dup'] == True]
data_undup = data[data['dup'] == False]
  • 缺失值的填充:
    在这里插入图片描述
    我这里以平均值填充为例,先取出整列的平均值,形成标记列,在对缺失值进行填充(三部)。
##todo 处理缺失值
Amean =  data['Age'].mean(axis=0,skipna = True)
data['AgeFlag'] = data['Age'].isnull()
data['NewAge'] = data['Age'].fillna(Amean)
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐