Python超实用小技巧：统计每列缺失值的占比

代码def missing_percent(df):nan_percent = 100*(df.isnull().sum()/len(df))# df.isnull().sum()统计每一列的缺失值数量# 再除上len()得到每一列的缺失值比例——小数形式# *100得到百分数nan_percent = nan_percent[nan_percent > 0].sort_values()#

Wan7777777

6155人浏览 · 2021-08-17 02:45:09

Wan7777777 · 2021-08-17 02:45:09 发布

代码

 def missing_percent(df):
     nan_percent = 100*(df.isnull().sum()/len(df))
     # df.isnull().sum()统计每一列的缺失值数量
     # 再除上len()得到每一列的缺失值比例——小数形式
     # *100得到百分数
     nan_percent = nan_percent[nan_percent > 0].sort_values()
     # 得到每列的缺失值的占比，升序排序
     # >0是为了筛掉没有缺失值的列，只返回有缺失值的
     return nan_percent
 print(missing_percent(train))

结果将输出回train数据每列的缺失值占比（如果缺失值为0则不显示）

结果示例

 Embarked     0.224467
 Age         19.865320
 dtype: float64

Embarked列缺失值为0.22%

Age列缺失值为19.8%

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

GaussDB全密态数据库等值查询

华为开发者空间

COC云运维中心新特性解读，让智能运维更高效

华为开发者空间

一文带你搞懂GaussDB数据库性能调优

华为开发者空间

所有评论(0)

查看更多评论

Wan7777777

@Wan7777777

已为社区贡献2条内容