Python超实用小技巧:统计每列缺失值的占比
代码def missing_percent(df):nan_percent = 100*(df.isnull().sum()/len(df))# df.isnull().sum()统计每一列的缺失值数量# 再除上len()得到每一列的缺失值比例——小数形式# *100得到百分数nan_percent = nan_percent[nan_percent > 0].sort_values()#
·
-
代码
def missing_percent(df):
nan_percent = 100*(df.isnull().sum()/len(df))
# df.isnull().sum()统计每一列的缺失值数量
# 再除上len()得到每一列的缺失值比例——小数形式
# *100得到百分数
nan_percent = nan_percent[nan_percent > 0].sort_values()
# 得到每列的缺失值的占比,升序排序
# >0是为了筛掉没有缺失值的列,只返回有缺失值的
return nan_percent
print(missing_percent(train))
结果将输出回train数据每列的缺失值占比(如果缺失值为0则不显示)
-
结果示例
Embarked 0.224467
Age 19.865320
dtype: float64
Embarked列缺失值为0.22%
Age列缺失值为19.8%
更多推荐
已为社区贡献2条内容
所有评论(0)