Python 数据处理数据挖掘(一):CSV文档数据处理
目录一、读取CSV文件二、数据清洗1、识别并处理缺失值 2、识别并处理异常值3、识别并处理重复值三、分组处理1、设置行索引:data.set_index("Index")2、数据分组统计:groupBy()声明:本文为学习笔记,侵权删所用函数:pandas.read_csv(file_path)数据挖掘时我们更多得会使用CSV文件,而不是Excel文件。如果数据本身以Excel的形式存储,只需打开
声明:本文为学习笔记,欢迎各位大佬的意见与建议,侵权删
一、读取与存储CSV文件
1、读取CSV文件
所用函数:pandas.read_csv(file_path)
数据挖掘时我们更多得会使用CSV文件,而不是Excel文件。如果数据本身以Excel的形式存储,只需打开,另存为CSV文件即可。
读取CSV文件需要调用pandas包,没有的自行pip一下哦。
举例:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
/*一般情况下,读取CSV文件只需要pandas.read_csv(file_path)即可,
而我这里再后面加了个变量encoding="GBK",
是因为我的CSV文件里有中文字符,是非ASCII码。
GBK是解析中文的编码格式。不加会无法解析。*/
print(data)
运行结果:
那么有时候我们会遇到另一种CSV文件,里面的数据用“::”分割,(通常CSV文件里数据用“,”分隔)按上面的方法直接读文件就会就像这样:
这时候需要在read_csv()函数中加一个参数sep,表示分隔符,默认是","。同时发现,这份数据里没有表头(好像是叫这个吧,就是一般第一行都是说明每一列表示的是什么数据),那么还需要两个参数header="None",表明没有表头,names=[],表明表头应该是啥。像这样
import pandas
data = pandas.read_csv(r"D:\Python Code\dataMining\ratings.csv",sep="::",header=None,names = ["用户id","电影id","评分","评分时间"])
print(data)
运行结果:
如果我们需要读取具体某一列时:直接在read_csv函数里加参数usecols,data["index"],或者data["index"].array,或者data["index"].array[index],或者data["index"].dt.year/month/day...具体区别看下面的例子
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",usecols=["totalScore"],encoding = "GBK")
print(data)
/*
输出:
totalScore
0 87.21
1 90.98
2 92.87
3 87.70
4 89.58
.. ...
837 92.59
838 87.55
839 90.38
840 93.04
841 90.74
*/
---------------------------------------分割线------------------------------------------
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
print(data["totalScore"])
/*
输出:
0 87.21
1 90.98
2 92.87
3 87.70
4 89.58
...
837 92.59
838 87.55
839 90.38
840 93.04
841 90.74
Name: totalScore, Length: 842, dtype: float64
*/
---------------------------------------分割线------------------------------------------
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
print(data["totalScore"].array)
/*
输出:
<PandasArray>
[87.21, 90.98, 92.87, 87.7, 89.58, 91.35, 89.5, 91.61, 89.55, 90.54,
...
90.46, 88.52, 83.23, 90.83, 92.82, 92.59, 87.55, 90.38, 93.04, 90.74]
Length: 842, dtype: float64
即把某一列的数据转成array的形式输出
*/
---------------------------------------分割线------------------------------------------
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
print(data["totalScore"].array[0])
/*
输出:
87.21
即:把某列数据转成array后,就可以对它做array的相关操作了
*/
---------------------------------------分割线------------------------------------------
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
print(data["日期"].dt.year)
/*
data[].dt.year/month...是用来处理CSV中的日期类型的数据的
我这份数据里没有日期类型的数据,所以这里只是模拟一下,并没有实际输出
另外,如果原数据里关于日期的数据并非标准的日期类型(year-month-date)
那么可以用pandas.to_datetime()函数将他们转变为日期类型,具体用法自行百度哈哈
*/
更改某列的所有数据/添加新的一列数据:data["index"] = ...
例子:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
#“number”这一列本身不存在原数据中,但可以通过下面这个方法在末尾加一列“日期”
data["number"] = [1]*842
#现在已经成功添加了"number”这一列数据,然后再对他整体更改
data["number"] = data["number"]+1
print(data)
运行结果(可以看到末尾添加了一列number):
将不同的列组合成新的dataframe:pandas.concat()
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv", encoding="GBK")
first = data["Index1"]
second = data["Index2"]
third = data["Index3"]
newIndex = pandas.concat([first,second,third],axis=1)
newIndex.columns = ["INDEX1","INDEX2","INDEX3"]
print(newIndex)
运行结果:
2、存储CSV文件
所用函数:to_csv(path)
例子(index = False指不将行索引信息写入第一列):
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",usecols=["totalScore"],encoding = "GBK")
data.to_csv(r"D:\数据挖掘\大作业\pjsj_raw_totalScore.csv",index=False)
运行结果:
3、合并两个CSV文件
所用函数:merge(csv1,csv2)
例子(merge函数默认的连接方法为内连接/等值连接(inner),当然也有outer(外链接)、left(左连接)、right(右连接)):
import pandas
data_1 = pandas.read_csv(r"D:\Python Code\dataMining\test_1_2.csv")
data_2 = pandas.read_csv(r"D:\Python Code\dataMining\test_3.csv")
print(data_1)
print(data_2)
data_all = pandas.merge(data_1,data_2)
print(data_all)
运行结果:
二、数据清洗
拿到一份数据后,先要对数据进行清洗。分为三个步骤:
1、识别并处理缺失值
2、识别并处理异常值
3、识别并处理重复值
1、识别并处理缺失值
检测是否有缺失值:data.info() //data就是上面那个例子里的data,即读取到的CSV文件对象
函数会输出每个列项的相关数据统计【格式:行号 列值 每列的非空数据的总数 数据类型】,
例子:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
data.info()
运行结果(这份数据总行数842行,所有列项都是842个非空数据,因此没有缺失值。如果某行有缺失值,那么该行的Non-Null Count 应小于总行数):
筛选出缺失值:布尔索引,data[data[Index].isnull()]
删除缺失值:data.drop()
例子:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
nullData = data[data["Index1"].isnull()]
data.drop(index = nullData.index, inplace=True)
data.info()
输出结果(我这份数据因为没有缺失值,所以没变化。如果有缺失值,那么处理完之后,总行数应该会变少,且所有列项的非空行数相等,都等于总行数):
删除空值还有一个简单的方法:dropna()
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
data.dropna()
2、识别并处理异常值
注意,数据异常的标准是灵活多变的,主观判断的。比如我这份数据是教评数据,所以教评每个指标的分数不会是负数,也不会大于10(这里设定评分最高为10),如果出现了这个区间之外的数据,那么就是异常值。
数据描述:data.describe() //输出数据最值、标准差、平均数等描述的标准。
通过数据描述,可以对数据有个整体直观的了解。
例子:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
print(data.describe())
运行结果:
异常数据筛除:利用布尔索引,把正常数据筛选出来
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
siftedData = data[(data["Index1"] >= 0) & (data["Index1"] <= 10)] #这里只对Index1做了筛选
print(siftedData.describe())
运行结果(可以看到处理后没变化,因为我的数据很乖,没有异常,嘿嘿):
3、识别并处理重复值
查找重复的数据:data.duplicated()
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv",encoding="GBK")
duplicateData = data[data.duplicated()]
print(duplicateData)
运行结果(显示empty dataframe说明没有重复值):
删除重复值:看这篇文章,我觉得讲的全面清晰
三、一些简单处理
1、设置行索引:data.set_index("Index")
看这里
2、数据分组统计:groupBy()
这里用另一份数据,结构如下
应用例子(对消费额,根据地区分组,求出消各地的消费额总和):
groupByArea =data["销售额"].groupby(data['地区']).sum()
#sum()函数默认为竖着加,如果写成sum(axis=1)则是横着加
print(groupByArea)
运行结果:
如果分组的条件比较苛刻,有多重的要求,比如,对消费额,根据地区以及年份分组,求出各地每年的消费额,那么:
groupByArea =data["销售额"].groupby([data['地区'],data["year"]]).sum()
print(groupByArea)
运行结果:
再复杂一点, 对消费额,根据地区、省/自治区以及年份分组,求出各省/自治区每年的消费额,那么:
groupByArea =data["销售额"].groupby([data['地区'],data["省/自治区"],data["year"]]).sum()
print(groupByArea)
运行结果:
再进一步,如果需要指定具体某地区,每年的销售额,那么可以用loc()函数,loc和iloc函数先关内容看这里,例如:
groupByArea =data["销售额"].groupby([data['地区'],data["year"]]).sum()
print(groupByArea.loc["中南"])
运行结果:
3、数据排序
使用函数:sort_values()
例子:
import pandas
data = pandas.read_csv(r"D:\数据挖掘\大作业\pjsj_raw.csv", encoding="GBK")
#按totalScore 递增 排序
data = data.sort_values(by="totalScore",ascending=True)
#输出前三个
print(data.iloc[0:3])
运行结果:
接下来就可以进一步对这些得到的数据进行画图啊啥的操作了。
更多推荐
所有评论(0)