python数据处理之0值的替换缺失值的填充
python数据处理之0值的替换和缺失值的填充零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串nulldata['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})标记重复数据:用duplicated()方法##todo标记重复数据 并且增加新的一列dup来判断是否是重复的行
·
python数据处理之0值的替换和缺失值的填充
- 零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串null
data['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})
- 标记重复数据:用duplicated()方法
##todo 标记重复数据 并且增加新的一列dup来判断是否是重复的行 duplicated
data['dup'] = data.duplicated()
- 去重:通过刚刚获得的 ‘ dup ’列的数据来进行去重
data_dup = data[data['dup'] == True]
data_undup = data[data['dup'] == False]
- 缺失值的填充:
我这里以平均值填充为例,先取出整列的平均值,形成标记列,在对缺失值进行填充(三部)。
##todo 处理缺失值
Amean = data['Age'].mean(axis=0,skipna = True)
data['AgeFlag'] = data['Age'].isnull()
data['NewAge'] = data['Age'].fillna(Amean)
更多推荐
已为社区贡献1条内容
所有评论(0)