python：dataframe保存成csv文件和读取

一、从csv文件读取数据为dataframe函数原型：pandas.read_csv(filepath_or_buffer,sep=', ',delimiter=None,header='infer',names=None,index_col=None,usecols=None,squeeze=False,prefix=None,mangle_dupe_cols=True,dtype=

猫猫玩机器学习

21903人浏览 · 2021-08-03 09:45:15

猫猫玩机器学习 · 2021-08-03 09:45:15 发布

一、从csv文件读取数据为dataframe

函数原型：
pandas.read_csv(filepath_or_buffer,   sep=', ',   delimiter=None,   header='infer', 
                names=None,   index_col=None,   usecols=None,   squeeze=False, 
                prefix=None,   mangle_dupe_cols=True,   dtype=None,   engine=None, 
                converters=None,   true_values=None,   false_values=None, 
                skipinitialspace=False,   skiprows=None,   nrows=None, 
                na_values=None,   keep_default_na=True,   na_filter=True, 
                verbose=False,   skip_blank_lines=True,   parse_dates=False,
                infer_datetime_format=False,   keep_date_col=False,   date_parser=None, 
                dayfirst=False,   iterator=False,   chunksize=None,   compression='infer',
                thousands=None,   decimal=b'.',   lineterminator=None,   quotechar='"',
                quoting=0,   escapechar=None,   comment=None,   encoding=None, 
                dialect=None,   tupleize_cols=None,    error_bad_lines=True, 
                warn_bad_lines=True,   skipfooter=0,    doublequote=True, 
                delim_whitespace=False,   low_memory=True,    memory_map=False, 
                float_precision=None)
 
常用参数：
  filepath_or_buffer : 类型str，代表CSV文件地址。
  sep : 类型str, 默认值为‘,’，用于指定分隔符。如果不指定参数，则会尝试使用逗号分隔。
  header : 类型为int或者int的列表,它指定用来作为列名行号，然后数据从行号的下一行开始读取。 默认情况下header是根据参数names（如下）
来推断header的值。如果names为None，则等价于header=0，默认把文件中第一行作为列名，数据从第一行开始读取。如果names显示地传入，
则等价于header=None，则数据从0行开始读取。如果传入header=0，names不为None，则将替换原有的列名。header参数可以是一个list。
例如：[0,1,3]，这个list表示将文件中的这些行作为列标题（意味着每一列有多个标题），介于中间的行将被忽略掉（例如本例中的2；
本例中的数据1,2,4行将被作为多级标题出现，第3行数据将被丢弃，dataframe的数据从第5行开始。）。
  names : 一个数组, 默认为None。列名列表，如果数据文件中没有列标题行，就需要执行header=None。
  usecols : 一个数组, 默认为None，返回数据列一个子集。如果传入字符，则列名需要与表中列名对应。如果传入整数列表，则表示列的索引值。
例如：usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’]。
  prefix : 类型str, 默认为None。在没有列标题时，给列添加前缀。例如：添加‘X’ 成为 X0, X1, ...
  engine : {‘c’, ‘python’},可选。使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。
  nrows : 类型int, 默认为None。需要读取的行数（从文件头开始算起）。
  iterator : 类型boolean, 默认为False。返回一个TextFileReader 对象，以便逐块处理文件。

二、dataframe保存为csv文件


函数原型：
DataFrame.to_csv(path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, 
                 header=True, index=True, index_label=None, mode='w', encoding=None, 
                 compression=None, quoting=None, quotechar='"', line_terminator='\n', 
                 chunksize=None, tupleize_cols=None, date_format=None, doublequote=True,
                 escapechar=None, decimal='.')
常用参数：
  path_or_buf : 文件路径，如果没有指定则将会直接返回字符串的 json
  sep : 输出文件的字段分隔符，默认为 “,”
  na_rep : 用于替换空数据的字符串，默认为''
  float_format : 设置浮点数的格式（几位小数点）
  columns : 要写的列
  header : 是否保存列名，默认为 True ，保存
  index : 是否保存索引，默认为 True ，保存