目录

一、学习参考

二、excel文件的读取、保存。

1.最简单读取和保存

 2.保存文件-设置索引

3.读取文件-获取sheet

 4.读取文件-指定表头所在行

5.读取文件-设置新表头

6.读取文件-设置索引列(index_col参数)

7.读取文件-读取指定列(usecols参数)

8.读取文件-设置维度(squeeze参数)

9.读取文件-设置数据类型(dtype参数)

 10.读取文件-转换类型

11.读取文件-设置需要读取的行数(nrows)

12.读取文件-(skiprows)表示跳过指定行数的数据,从头部第一行开始。

13.读取文件-(skipfooter)省略指定行数的数据,从尾部最后一行开始。

14.true_values(list,default None)

16.false_values(list,default None)

17.na_values(scalar, str, list-like, or dict, default None)

18.keep_default_na(bool, default True)

19.engine(str, default None)

20.文件写入的参数


一、学习参考

1.菜鸟教程:
  https://www.runoob.com/pandas/pandas-tutorial.html

2.C语言中文网pandas教程:
  http://c.biancheng.net/pandas/

3.pandas官方文档:
  https://pandas.pydata.org/docs/user_guide/

二、excel文件的读取、保存。

1.最简单读取和保存

import pandas as pd

df = pd.read_excel('test.xlsx')#默认读取第一个sheet

df.to_excel('test02.xlsx')#默认保存的sheet名是 Sheet1,且默认加一列索引。

 2.保存文件-设置索引

index=False

import pandas as pd

df = pd.read_excel('test.xlsx')#默认读取第一个sheet

df.to_excel('test02.xlsx',index=False)#默认保存的sheet名是 Sheet1

3.读取文件-获取sheet

df = pd.read_excel('test.xlsx',sheet_name=0)#sheet_name默认等于0

1.sheet_name参数可以接收的有:str(sheet的名字),int(sheet的序号),list或None,默认0

2.字符串用于工作表名称。 整数用于零索引工作表位置。

3.字符串/整数列表用于请求多个工作表。设置None获取所有工作表。返回的是字典类型,每一条是一个df。

4.有时候一个excel工作簿中包含有很多个sheet工作表,如果不指定默认为0,数据读入的时候默认读入的是第一个位置的sheet。

 4.读取文件-指定表头所在行

import pandas as pd

df = pd.read_excel('test.xlsx',header=1)

df.to_excel('test02.xlsx',index=False)

1.这个参数是用来指定哪一行作为列名的,默认是第0行,接收的参数可以是整数(指定第几行作为列名),可以是有整数组成的列表(指定哪几行作为列名,是的,列名可以有多行,是不是有点突破认知?),也可以是None(没有列名)

5.读取文件-设置新表头

import pandas as pd

df = pd.read_excel('test.xlsx',names=['姓名A','语文B','数学C','英语'])

df.to_excel('test02.xlsx',index=False)

6.读取文件-设置索引列(index_col参数)

1.这个参数接收整数,或者由整数组成的列表,默认是None。

2.分别采用了默认值None,整数0和列表[0,1]对index_col进行了设置

来源:pandas数据处理:常用却不甚了解的函数,pd.read_excel()

7.读取文件-读取指定列(usecols参数)

1.如果是None,表示所有的列都会被读取。

2.如果是整数,表示被读取进来的最后一列,比如说传整数n给usecols,那么最终读取进来的是第0到第n列。

3.只读入第n列,这样就可以usecols=[n],如果是多列,就把多个整数放入一个列表中传递给参数。需要留心的是,列表中不止可以传入整数,也可以是字段名组成的列表

8.读取文件-设置维度(squeeze参数)

接收布尔值,当取值为True的时候,如果解析的数据仅包含一列,则返回Series。默认值是False,即只有一列也返回Dataframe。

9.读取文件-设置数据类型(dtype参数)

1.字符表示整个表格的数据都转换成指定的数据类型

2.输入的是字典,那么每个字段可以指定不同的数据类型

 10.读取文件-转换类型

df = pd.read_excel ("test.xlsx" , converters={'类别编码':str})

11.读取文件-设置需要读取的行数(nrows)

12.读取文件-(skiprows)表示跳过指定行数的数据,从头部第一行开始。

13.读取文件-(skipfooter)省略指定行数的数据,从尾部最后一行开始。

14.true_values(list,default None)

将指定的文本转换为True,默认为None

16.false_values(list,default None)

将指定的文本转换为False,默认为None

将性别中的女转换为True,男转换为False

17.na_values(scalar, str, list-like, or dict, default None)

指定某些列的某些值为NaN

na_values='大专',指定大专为NaN

18.keep_default_na(bool, default True)

表示导入数据时是否导入空值。

默认为True,即自动识别空值并导入

19.engine(str, default None)

可以接受的参数有“ xlrd”,“ openpyxl”或“ odf”,用于使用第三方的库去解析excel文件。

 

20.文件写入的参数

 

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐