pandas入门01——excel的读取和保存
目录一、学习参考二、excel文件的读取、保存。1.最简单读取和保存 2.保存文件-设置索引3.读取文件-获取sheet 4.读取文件-指定表头所在行5.读取文件-设置新表头6.读取文件-设置索引列(index_col参数)7.读取文件-读取指定列(usecols参数)8.读取文件-设置维度(squeeze参数)9.读取文件-设置数据类型(dtype参数) 10.读取文件-转换类型11.读取文件-
目录
12.读取文件-(skiprows)表示跳过指定行数的数据,从头部第一行开始。
14.true_values(list,default None)
16.false_values(list,default None)
17.na_values(scalar, str, list-like, or dict, default None)
18.keep_default_na(bool, default True)
一、学习参考
1.菜鸟教程:
https://www.runoob.com/pandas/pandas-tutorial.html
2.C语言中文网pandas教程:
http://c.biancheng.net/pandas/
3.pandas官方文档:
https://pandas.pydata.org/docs/user_guide/
二、excel文件的读取、保存。
1.最简单读取和保存
import pandas as pd
df = pd.read_excel('test.xlsx')#默认读取第一个sheet
df.to_excel('test02.xlsx')#默认保存的sheet名是 Sheet1,且默认加一列索引。
2.保存文件-设置索引
index=False
import pandas as pd
df = pd.read_excel('test.xlsx')#默认读取第一个sheet
df.to_excel('test02.xlsx',index=False)#默认保存的sheet名是 Sheet1
3.读取文件-获取sheet
df = pd.read_excel('test.xlsx',sheet_name=0)#sheet_name默认等于0
1.sheet_name参数可以接收的有:str(sheet的名字),int(sheet的序号),list或None,默认0
2.字符串用于工作表名称。 整数用于零索引工作表位置。
3.字符串/整数列表用于请求多个工作表。设置None获取所有工作表。返回的是字典类型,每一条是一个df。
4.有时候一个excel工作簿中包含有很多个sheet工作表,如果不指定默认为0,数据读入的时候默认读入的是第一个位置的sheet。
4.读取文件-指定表头所在行
import pandas as pd
df = pd.read_excel('test.xlsx',header=1)
df.to_excel('test02.xlsx',index=False)
1.这个参数是用来指定哪一行作为列名的,默认是第0行,接收的参数可以是整数(指定第几行作为列名),可以是有整数组成的列表(指定哪几行作为列名,是的,列名可以有多行,是不是有点突破认知?),也可以是None(没有列名)
5.读取文件-设置新表头
import pandas as pd
df = pd.read_excel('test.xlsx',names=['姓名A','语文B','数学C','英语'])
df.to_excel('test02.xlsx',index=False)
6.读取文件-设置索引列(index_col参数)
1.这个参数接收整数,或者由整数组成的列表,默认是None。
2.分别采用了默认值None,整数0和列表[0,1]对index_col进行了设置
7.读取文件-读取指定列(usecols参数)
1.如果是None,表示所有的列都会被读取。
2.如果是整数,表示被读取进来的最后一列,比如说传整数n给usecols,那么最终读取进来的是第0到第n列。
3.只读入第n列,这样就可以usecols=[n],如果是多列,就把多个整数放入一个列表中传递给参数。需要留心的是,列表中不止可以传入整数,也可以是字段名组成的列表。
8.读取文件-设置维度(squeeze参数)
接收布尔值,当取值为True的时候,如果解析的数据仅包含一列,则返回Series。默认值是False,即只有一列也返回Dataframe。
9.读取文件-设置数据类型(dtype参数)
1.字符表示整个表格的数据都转换成指定的数据类型
2.输入的是字典,那么每个字段可以指定不同的数据类型。
10.读取文件-转换类型
df = pd.read_excel ("test.xlsx" , converters={'类别编码':str})
11.读取文件-设置需要读取的行数(nrows)
12.读取文件-(skiprows)表示跳过指定行数的数据,从头部第一行开始。
13.读取文件-(skipfooter)省略指定行数的数据,从尾部最后一行开始。
14.true_values(list,default None)
将指定的文本转换为True,默认为None
16.false_values(list,default None)
将指定的文本转换为False,默认为None
将性别中的女转换为True,男转换为False
17.na_values(scalar, str, list-like, or dict, default None)
指定某些列的某些值为NaN
na_values='大专',指定大专为NaN
18.keep_default_na(bool, default True)
表示导入数据时是否导入空值。
默认为True,即自动识别空值并导入
19.engine(str, default None)
可以接受的参数有“ xlrd”,“ openpyxl”或“ odf”,用于使用第三方的库去解析excel文件。
20.文件写入的参数
更多推荐
所有评论(0)