P52思考与练习4

1.数据清洗。

     1)从studentsInfo.xlsx 文件的“Group1”表单中读取数据;

     2)将“案例教学”列数据值全改为NaN;

     3)滤除每行数据中缺失3项以上(包括3项)的行;

     4)滤除值全部为NaN的列;

#1、数据清洗
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)

#2)
import numpy as np
stu['案例教学'] = np.nan    
print(stu)

#3)
print(stu.dropna(thresh = 7))               #总列数(9)-缺失要删除的行数(3)+1 = 7

#4)
print(stu.dropna(axis = 1,how = 'all'))

2.数据填充。

     1)使用习题1的数据;

     2)使用列的平均值填充“体重”和“成绩”列的NaN数据;

     3)使用上一行数据填充“年龄”列的NaN数据;

     4)使用“中位数”填充“生活费用”NaN数据。

【提示:】使用df[“生活费用”].median()  计算中位数。

#2、数据填充
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)

#2)
stu.fillna({'体重':stu['体重'].mean(),'成绩':stu['成绩'].mean()},inplace = True)
print(stu)

#3)
stu['年龄'].fillna(method = 'ffill',inplace = True)
print(stu)

#4)
stu.fillna({'月生活费':stu['月生活费'].median()},inplace = True)

 

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐