第3章【思考与练习4】数据清洗,从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充,使用习题1的数据,使用列的平均值填充“体重”和“成绩”列的NaN数据。
第3章 | 数据汇总与统计。P52【思考与练习4】。考察数据填充与清洗。1、数据清洗。 1)从studentsInfo.xlsx 文件的“Group1”表单中读取数据;2)将“案例教学”列数据值全改为NaN; 3)滤除每行数据中缺失3项以上(包括3项)的行;4)滤除值全部为NaN的列;2、数据填充:1)使用习题1的数据;2)使用列的平均值填充“体重”和“成绩”列的NaN数据;3)使用上一行数据填充
·
P52思考与练习4
1.数据清洗。
1)从studentsInfo.xlsx 文件的“Group1”表单中读取数据;
2)将“案例教学”列数据值全改为NaN;
3)滤除每行数据中缺失3项以上(包括3项)的行;
4)滤除值全部为NaN的列;
#1、数据清洗
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)
#2)
import numpy as np
stu['案例教学'] = np.nan
print(stu)
#3)
print(stu.dropna(thresh = 7)) #总列数(9)-缺失要删除的行数(3)+1 = 7
#4)
print(stu.dropna(axis = 1,how = 'all'))
2.数据填充。
1)使用习题1的数据;
2)使用列的平均值填充“体重”和“成绩”列的NaN数据;
3)使用上一行数据填充“年龄”列的NaN数据;
4)使用“中位数”填充“生活费用”NaN数据。
【提示:】使用df[“生活费用”].median() 计算中位数。
#2、数据填充
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)
#2)
stu.fillna({'体重':stu['体重'].mean(),'成绩':stu['成绩'].mean()},inplace = True)
print(stu)
#3)
stu['年龄'].fillna(method = 'ffill',inplace = True)
print(stu)
#4)
stu.fillna({'月生活费':stu['月生活费'].median()},inplace = True)
更多推荐
已为社区贡献7条内容
所有评论(0)