Python爬虫(四) —— 将爬取到的数据进行存储

文章目录文本存储文件打开模式以TXT文本形式存储以JSON数据形式存储读取json数据输出json数据以CSV文本格式存储写入CSV数据读取CSV数据用解析器解析出数据之后，接下来就是存储数据了。保存的形式有很多，最简单的形式是直接保存为文本文件，如TXT、JSON、csv等。另外，还可以将这些数据保存到数据库中。文本存储文件打开模式python中所有open()打开一个文件，文件的打...

seeyoumeet

8696人浏览 · 2021-12-24 17:58:30

seeyoumeet · 2021-12-24 17:58:30 发布

文章目录

文本存储

用解析器解析出数据之后，接下来就是存储数据了。保存的形式有很多，最简单的形式是直接保存为文本文件，如TXT、JSON、csv等。另外，还可以将这些数据保存到数据库中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tr2PR6Kl-1640339861361)(https://note.youdao.com/yws/public/resource/f8e5908c0721dddb3fd530cf29cb1b8e/xmlnote/WEBRESOURCE5c55acb5ef08952f68989ff660a19fed/42821 “”)]

以CSV文本格式存储

Csv(Comma-Separated Values，逗号分隔值或字符分隔值)，其文件以纯文
本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔。每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。不过所有记录都有完全相同的字段序列，相当于一个结构化表的纯文本形式。它比Excel文件更加简介，XLS是电子表格，它包含了文本、数值、公式和格式等内容，而csv 中不包含这些内容，就是字符分隔的纯文本，保存最基本的表格数据信息，结构简单清晰。

写入CSV数据

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

此时data.csv文件的内容如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sdSkBwIx-1640339861362)(https://note.youdao.com/yws/public/resource/f8e5908c0721dddb3fd530cf29cb1b8e/xmlnote/WEBRESOURCE726e279bee28d8071543b7a812f60258/42835 “”)]

上面的程序中没有指明CSV的分隔符，所以使用的是默认的逗号，如果想修改CSV文件中列与列之间的分隔符：

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dgtzpeK8-1640339861364)(https://note.youdao.com/yws/public/resource/f8e5908c0721dddb3fd530cf29cb1b8e/xmlnote/WEBRESOURCEf445bd3566bf3f3c9a461ed4bc816fb0/42837 “”)]

也可以使用writerows()一次性写入多行，当然，给它传入的参数是一个二维列表：

import csv

with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])

但是一般情况下，爬虫爬取的都是结构化数据，我们一般会用字典来表示，所以尽量使用csv库提供的DictWriter()向CSV文件中写字典入数据。

import csv

with open('data.csv', 'w') as csvfile:
    fieldnames = ['id', 'name', 'age']  # 定义CSV头部信息
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()    # 写入CSV头部信息
    # 下面的writerow()传入的是字典数据
    writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})
    writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})
    writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

读取CSV数据

import csv

with open('data.csv', 'r') as csvfile:
    # reader()每次读取CSV文件中的一行
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)