Python之数据处理：pandas读取CSV大文件（chunk使用）

Pandas基础：读取CSV大文件使用pandas读取一个超大CSV文件出现以下状况：使用Excel打开csv文件时会报错或者丢失数据使用基本pandas.read_csv打开文件时出现：MemoryError解决方案:读取大文件使用pandas中的chunk分块读取pandas的chunk分块读取read_chunks = pd.read_csv(csv_path, encoding='utf-

道迩求索

11089人浏览 · 2021-06-19 11:05:45

道迩求索 · 2021-06-19 11:05:45 发布

Pandas基础：读取CSV大文件

使用pandas读取一个超大CSV文件出现以下状况：

使用Excel打开csv文件时会报错或者丢失数据
使用基本pandas.read_csv打开文件时出现：MemoryError
解决方案:
读取大文件使用pandas中的chunk分块读取

pandas的chunk分块读取

read_chunks = pd.read_csv(csv_path, encoding='utf-8', iterator=True, chunksize=65535)

参数说明：
iterator=True ：开启迭代器
chunksize=65535：指定一个chunksize分块的大小来读取文件，此处是读取65535个数据为一个块。

两种读取方式

第一种读取所有的chunk块并将所有块拼接成一个DataFrame

# 第一种读取所有的chunk块并将所有块拼接成一个DataFrame
chunk_list = list()
for chunk in read_chunks:
    chunk_list.append(chunk)
    # print(chunk, type(chunk))
base_df = pd.concat(chunk_list, axis=0, ignore_index=False)
print(base_df)

第二种只读取某一段数据（65535个数据）

# 第二种只读取某一段数据（65535个数据）
base_df = read_chunks.get_chunk(65535)
print(base_df)

pandas关于chunk读取的官方链接

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

COC云运维中心新特性解读，让智能运维更高效

华为开发者空间

GaussDB性能调优

华为开发者空间

简单几步，基于云主机快速为Web项目添加AI助手

华为开发者空间

所有评论(0)

查看更多评论

道迩求索

@qq_39635663

已为社区贡献1条内容