第3章【思考与练习4】数据清洗，从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充，使用习题1的数据，使用列的平均值填充“体重”和“成绩”列的NaN数据。

第3章 | 数据汇总与统计。P52【思考与练习4】。考察数据填充与清洗。1、数据清洗。 1）从studentsInfo.xlsx 文件的“Group1”表单中读取数据；2）将“案例教学”列数据值全改为NaN； 3）滤除每行数据中缺失3项以上（包括3项）的行；4）滤除值全部为NaN的列；2、数据填充：1）使用习题1的数据；2）使用列的平均值填充“体重”和“成绩”列的NaN数据；3）使用上一行数据填充

是学数据分析的阿龙

7898人浏览 · 2022-03-13 00:56:04

是学数据分析的阿龙 · 2022-03-13 00:56:04 发布

P52思考与练习4

1．数据清洗。

1）从studentsInfo.xlsx 文件的“Group1”表单中读取数据；

2）将“案例教学”列数据值全改为NaN；

3）滤除每行数据中缺失3项以上（包括3项）的行；

4）滤除值全部为NaN的列；

#1、数据清洗
#1）
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)

#2)
import numpy as np
stu['案例教学'] = np.nan    
print(stu)

#3)
print(stu.dropna(thresh = 7))               #总列数（9）-缺失要删除的行数（3）+1 = 7

#4)
print(stu.dropna(axis = 1,how = 'all'))

2．数据填充。

1）使用习题1的数据；

2）使用列的平均值填充“体重”和“成绩”列的NaN数据；

3）使用上一行数据填充“年龄”列的NaN数据；

4）使用“中位数”填充“生活费用”NaN数据。

【提示：】使用df[“生活费用”].median() 计算中位数。

#2、数据填充
#1）
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)

#2)
stu.fillna({'体重':stu['体重'].mean(),'成绩':stu['成绩'].mean()},inplace = True)
print(stu)

#3)
stu['年龄'].fillna(method = 'ffill',inplace = True)
print(stu)

#4)
stu.fillna({'月生活费':stu['月生活费'].median()},inplace = True)