python爬取通过百度图片搜出来的所有图片

文章目录恭喜EDG！！！一、页面分析二、源代码1.思路2.代码总结恭喜EDG！！！今天来讲一下怎么爬取百度图片搜索出来的图片并进行下载需求：由用户输入关键字然后创建一个以关键字命名的文件夹，文件夹下要有这个关键字所搜索出来的所有图片。那么：1、用户输入2、创建一个文件夹3、图片一、页面分析首先我们通过百度图片搜索周杰伦（不只限于周杰伦）。然后F12，选择Network然后在选择XHR。在刷新页面。

默默无闻的小韭菜

5263人浏览 · 2021-11-07 01:12:16

默默无闻的小韭菜 · 2021-11-07 01:12:16 发布

文章目录

一、页面分析
二、源代码
- 1.思路
- 2.代码
总结

今天来讲一下怎么爬取百度图片搜索出来的图片并进行下载

需求：由用户输入关键字然后创建一个以关键字命名的文件夹，文件夹下要有这个关键字所搜索出来的所有图片。
那么：
1、用户输入
2、创建一个文件夹
3、图片

一、页面分析

首先我们通过百度图片搜索zhoujielun（不只限于zhoujielun）。
在这里插入图片描述
然后F12，选择Network然后在选择XHR。在刷新页面。

刷新页面之后我们把网页往下滑，然后发现加载出来了几个相似的链接，随便点一个发现里面有30个数据，由此看来url已经被我们成功找到了。
随机选择几个url进行分析，在这里我选择了三个连续的url进行分析，发现只有pn和最后这一串数字不一样。红色划线的地方应该就是url字符串。
在这里插入图片描述
接下来我们来请求其中一个页面再进一步分析。
这里绿色划线的应该就是图片总数了，红色划线的就是具体图片的url。

在这里插入图片描述

二、源代码

1.思路

1、找到含30张图片具体链接的url，分析
2、将输入的汉字编码引入url，将时间戳转换来的13位数字引入url
3、向引入好的url发起请求并得到响应
4、在得到的响应内容里找具体图片的url
5、向图片的具体url发请求得到content
6、在文件夹下写入图片

2.代码

# -!- coding: utf-8 -!-
import re
import requests
import time #时间模块
from urllib import parse #对汉字进行编码
import os #文件操作
from fake_useragent import UserAgent #随机生成一个user-agent

class Picture:

    def __init__(self):
        self.name_ = input('请输入关键字:')
        self.name = parse.quote(self.name_) #周杰伦 --> 编码
        self.times = str(int(time.time()*1000)) #时间戳-->补全url
        self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8032920601831512061&ipn=rj&ct=201326592&is=&fp=result&fr=&word={}&cg=star&queryWord={}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&expermode=&nojc=&isAsync=&pn={}&rn=30&gsm=1e&{}='
        self.headers = {'User-Agent':UserAgent().random}

    #请求30张图片的链接
    def get_one_html(self,url,pn):
        response = requests.get(url=url.format(self.name,self.name, pn, self.times), headers=self.headers).content.decode('utf-8')
        return response

    #请求单张图片内容
    def get_two_html(self,url):
        response = requests.get(url=url, headers=self.headers).content
        return response

    #解析含30张图片的html的内容
    def parse_html(self,regex,html):
        content = regex.findall(html)
        return content

    #主函数
    def run(self):
        #判断该目录下是否存在与输入名称一样的文件夹 如果没有则创建 有就不执行if下的创建
        if not os.path.exists('./{}/'.format(self.name_)):
            os.mkdir('./{}'.format(self.name_))
        response = self.get_one_html(self.url,0)
        regex1 = re.compile('"displayNum":(.*?),')
        num = self.parse_html(regex1,response)[0] #获取总的照片数量
        print('该关键字下一共有{}张照片'.format(num)) #打印总的照片数量

        #判断总数能不能整除30
        if int(num)%30 == 0:
            pn = int(num)/30
        else:
            # 总数量除30是因为每一个链接有30张照片 +2是因为要想range最多取到该数就需要+1
            # 另外的+1是因为该总数除30可能有余数，有余数就需要一个链接 所以要+1
            pn = int(num)//30 + 2
        for i in range(pn): #遍历每一个含30张图片的链接
            resp = self.get_one_html(self.url, i * 30)
            regex2 = re.compile('"middleURL":"(.*?)"')
            urls = self.parse_html(regex2,resp) #得到30张图片的链接（30个）
            for u in urls:  #遍历每张图片的链接
                content = self.get_two_html(u) #请求每张图片的内容
                # 打开该关键字下的文件写入图片
                with open('./{}/{}.jpg'.format(self.name_,u[28:35]),'wb') as f:
                    f.write(content)
                print('完成一张照片') #下载完一张图片后打印


if __name__ == '__main__':
    spider = Picture()
    spider.run()