• 代码

 def missing_percent(df):
     nan_percent = 100*(df.isnull().sum()/len(df))
     # df.isnull().sum()统计每一列的缺失值数量
     # 再除上len()得到每一列的缺失值比例——小数形式
     # *100得到百分数
     nan_percent = nan_percent[nan_percent > 0].sort_values()
     # 得到每列的缺失值的占比,升序排序
     # >0是为了筛掉没有缺失值的列,只返回有缺失值的
     return nan_percent
 print(missing_percent(train))

结果将输出回train数据每列的缺失值占比(如果缺失值为0则不显示)

  • 结果示例

 Embarked     0.224467
 Age         19.865320
 dtype: float64

Embarked列缺失值为0.22%

Age列缺失值为19.8%

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐