• 代码

 def missing_percent(df):
     nan_percent = 100*(df.isnull().sum()/len(df))
     # df.isnull().sum()统计每一列的缺失值数量
     # 再除上len()得到每一列的缺失值比例——小数形式
     # *100得到百分数
     nan_percent = nan_percent[nan_percent > 0].sort_values()
     # 得到每列的缺失值的占比,升序排序
     # >0是为了筛掉没有缺失值的列,只返回有缺失值的
     return nan_percent
 print(missing_percent(train))

结果将输出回train数据每列的缺失值占比(如果缺失值为0则不显示)

  • 结果示例

 Embarked     0.224467
 Age         19.865320
 dtype: float64

Embarked列缺失值为0.22%

Age列缺失值为19.8%

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐