目录

一、请求库的安装

1.requests 的安装

2.Selenium的安装

3.ChromeDrive 的安装

4.GeckoDriver 的安装

5.PhantomJS 的安装

6.aiohttp 的安装

二、解析库的安装

1.lxml 的安装

2.Beautiful Soup 的安装

3.pyquery 的安装

4.tesserocr 的安装


一、请求库的安装

        爬虫可以简单分为几步:抓取页面、分析页面和存储数据
        在抓取页面的过程中 ,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现HTTP请求操作
        接下来,我们介绍一下这些请求库的安装方法

1、requests 的安装

 2 . pip 安装

pip install requests

2、Selenium的安装

        Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作对于一些JavaScript谊染的页面来说,这种抓取方式非常有效。

1.相关链接

 2.pip 安装

pip install selenium

3、ChromeDrive 的安装

​        前面我们成功安装好了Selenium库,但是他是一个自动化测试工具,需要浏览器来配合使用。
        首先,下载 hrome 浏览器。
        随后安装 ChromeDriver 因为只有安装 ChromeDriver ,才能驱动 Chrome 浏览器完成相应的操作 下面我们来介绍下怎样安装 ChromeDriver。

1. 相关链接

 2.准备工作

        在这之前请确保已经正确安装好了 Chrome 浏览器并可以正常运行,安装过程不再赘述
3. 查看版本
        点击 chrome 菜单“帮助”→“关于 Google Chrome”,即可查看 Chrome 的版本号

这里我的 Chrome 版本是 96.0
请记住 Chrome 版本号,因为选择 ChromeDriver 版本时需要用到

4. 下载 ChromeDriver 

         打开 ChromeDriver 的官方网站,可以看到最新版本为 96.04664.18 ,其支持的 Chrome 浏览器版本为 96.04664

        如果你的 Chrome 版本号不在此范围,可以继续查看之前的 hromeDriver 每个版本都有相
应的支持 Chrome 版本的介绍,请找好自己的 Chrome 浏览器版本对应的 ChromeDriv er 版本再下载, 否则可能无法正常工作
        找好对应的版本号后,随后到 hromeDriver 镜像站下载对应的安装包即可:https://chromedriver.storage.googleapis.com/index.html 在不同平台下,可以下载不同的安装包

 5.环境变量配置

下载完成后,将 hromeDriver 的可执行文件配置到环境变量下
在Windows 下,建议直接将 hromedriver.exe 文件拖到 Python Scripts 目录下

 

 6. 验证安装

        配置完成后,就可以在命令行下直接执行 chromedriver 命令了: chromedriver

        随后再在程序中测 Python 代码:

from selenium import webdriver
browser = webdriver.Chrome()

 返回:

         运行之后 如果弹出一个空Chrome 浏览器,则证明所有的配置都没有问题。如果没有弹出,

请检查之前的每一步配置。
        如果弹出闪退则可能 ChromeDriver 版本和 Chrome 版本不兼容 ,请更换 ChromeDriver版本。如果没有问题 ,接下来就可以利用 Chrome 来做网页抓取了

4.GeckoDriver 的安装

         上面,我们了解了ChromeDriver的配置方法,配置完成后可以用Selenium驱动Chrome浏览器做对应的网页抓取。

        那么对应Firefox来说,也可以用同样的方式完成Selenium的对接,这时需要安装另一个驱动GeckoDriver,接下来我们接受一下它的安装过程。

1. 相关链接

 2. 准备工作

        确保已经正确安装了Firefox浏览器并且能正常运行。

3.下载 GeckoDriver

        在GitHub 上找 GeckoDriver 的发行版,并找到最新版的,如下是0.30

 因我的电脑是win10,64位的所以下载如图的

 

 4. 环境变量配置

在Windows 下,可以直接 geckodriver.exe 文件拖到 Python Scripts 录下,如ChromeDrive 的安装一样
5. 验证安装
配置完成后,就可以在命令行下直接执行 geckodriver 命令测试:
geckodriver

 返回如下,则证明安装成功且配置正确

        随后执行如下 Python 代码 在程序中测试一下
from selenium import webdriver
browser = webdriver.Firefox()

 返回,不知为啥这次pycharm里运行会报错,于是我用了Anaconda运行

        运行之后,若弹出一个空内的 firefox 浏览器,则证明所有的配置都没有问题 ;如果没有弹出, 请检查之前的每一步配置

5.PhantomJS 的安装

        PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多 Web 标准 DOM 操作、 ss 选择器、 JSON Canvas 以及 SVG。
        Selenium 支持 PhantomJS ,这样在运行的时候就不会再弹出 个浏览器了 而且 PhantomJS 的运 行效率也很高,还支持各种参数配置,使用非常方便 下面我 就来了解一下 PhantomJS 安装过程。
1. 相关链接
2. 下载 PhantomJS(建议用下载地址1)
        在官网找到对应版本下载对应操作系统的安装包,下载完成后,将 PhantomJS 可执行文件所在的路径配置到环境变盘里 比如在 Windows 下,将下载的文件解压之后并打开,会看到一个 in 文件夹,里面包括 个可执行文件 phantomjs.exe ,我们需 要将它直接放在配置好环境变量的路径下或者将它所在的路径配置到环境变盘里 比如,我们既可以 将它直接复制到 Python Scripts 文件夹,也可以将它所在的 bin 目录加入到环境变量。

3. 验证安装
首先在命令提示符里输入 phantomjs并回车返回如下,证明成功了
在Selenium 中使用的话,我们只需要将 Chrome 切换为 PhantomJS 即可:
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')
print(browser.current_url)

 如果返回如下,则说明selenium版本过高,需要安装低版本的,因为最新版已经放弃了phantomjs

1.先把selenium卸载,代码如下:

pip uninstall selenium

2.安装selenium==2.48.0版本的,代码如下:

pip install selenium==2.48.0

完美运行成功!!!!!

 返回:

 

        运行之后,我们就不会发现有浏览器弹出了,但实际上 PhantomJS 已经运行起来了 这里我们访 问了百度,然后将当前的 URL 打印出来
        控制台的输出如下
        https: //www.baidu.com/
        如此一来,我们便完成了 PhantomJS 的配置,后面可以利用它来完成一些页面的抓取

6.aiohttp 的安装

        requests 库是一个阻塞式 HTTP 请求库,当我们发出一个请求后程序会一直等待服务器响应,直到得到响应后,程序才会进行下 步处理 其实,这个过程比较耗费时间 如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度 响应的处理等,那么爬取效率一定会大大提高 。
        aiohttp 就是这样一个提供异步 Web 服务的库,从 Python3.5版本开始,python 中加入了 async/await 关键字,使得回调的写法更加直观和人性 aiohttp即的异步操作借助于 async/await 关键字的写法变 得更加简洁,架构更加清晰使用异步请求库进行数据抓取时,会大大提高效率,下面我 来看一下这个库的安装方法:

 2. pip 安装

pip install aiohttp
        另外,官方还推荐安装如下两个库个是字符编码检测库cchardet ,另一个是加速DNS解析aiodns 安装命令如下:
pip install cchardet aiodns

二、解析库的安装

1、lxml 的安装

        lxm是Python的一个解析库,支持 HTML和XML的解析,支持XPath 解析方式,而且解析效
率非常高。接下来,我们了解一下 lxml 安装方式。
1.相关链接
在Windows 下,可以先尝试利用 pip 安装, 此时直接执行如下命令即可:
pip install lxml
#或
pip3 install lxml
如果没有任何报锚,则证明安装成功
如果: 现报 ,比如提示缺少 lib ml2 库等信息 可以采用 heel 方式安装
推荐直接到这里(链接为:https://www.lfd.uci.edu/-gohblke/pythonlibs/#lxml )下载对应的weel文
件,找到本地安装 Python 版本和系统对应的 lxml 版本,例如 Windows 64 位、 Python3.6,就选作 lxml-3 .8.0-cp36-cp36m-win _ amd64. whl ,将其下载到本地
然后利用 pip 安装即可,命令如下
pip install lxml 3.8.0-cp36-cp36m-win_amd64 .whl
#或
pip3 install lxml 3.8.0-cp36-cp36m-win_amd64 .whl
这样我 就可以成功安装 lxml
3.验证安装
安装完成之后,可以在 Python命令行下测试:

 如果没有错误报出,则证明库已经安装好了

2.Beautiful Soup 的安装

        Beautiful Soup是 Python HTML或 XML 的解析库,我们可以用它来方便地从网页中提取
数据。 它拥有强大的A PI 多样的解析方式。
1. 相关链接
        Beautiful Soup HTML和 XML 解析器是依赖于 lxml 库的,所以在此之前请确保已经成功安装
好了 lxml 库,具体的安装方式参见上面
3. pip 安装
pip install beautifulsoup4
#或
pip3 install beautifulsoup4
        命令执行完毕之后即可完成安装
4. wheel 安装
        可以从 Py PI下载 wheel 文件安装,链接如下: beautifulsoup4 · PyPI
        然后使用p ip 安装w heel 文件 即可
5. 验证安装
安装完成之后,可以运行下面的代码验证一下:
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<p>Hello</p>','lxml') 
print(soup.p.string)

运行结果如下:

运行一致,则证明安装成功。

3.pyquery 的安装

        pyquery 个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文梢,支持CSS选 择器,使用非常方便。
1. 相关链接
2. pip 安装
pip install pyquery
#或
pip3 install pyquery
        命令执行完毕之后即可完成安装
3. wheel 安装
        可以从 Py PI下载 wheel 文件安装,链接如下: beautifulsoup4 · PyPI pyquery · PyPI beautifulsoup4 · PyPI
然后使用p ip 安装w heel 文件 即可。 比如如果当前版本为 1.2.17 ,则下载的文件名称为 pyque ry-1.2.17 -py2.py3-none-any.whl ,此 时下载到本地再进行 p ip 安装 即可,命 令如下:
pip install pyquery-1.2.17-py2.py3-none-any.whl 
#或
pip3 install pyquery-1.2.17-py2.py3-none-any.whl 
4. 验证安装
安装完成之后,可以运行下面的代码验证一下:
import pyquery

运行结果如下:

运行没有报错,则证明安装成功。

4.tesserocr 的安装

        在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们 以直接用 OCR 来识别。

1.OCR

        OCR ,即 Optical Character Recognition ,光 学字符识 别, 是指通过扫描字符,然后通过其形状将 其翻译成 电子文本的过程。 对于图形验证码来说,它 们都 是一些不规 则的 字符 ,这些 字符确实是由字 符稍 加扭曲变换得到的内容
        tesse rocr是 Python的 一个 OCR 识别库 ,但 其实是对 tesseract 做的 一层 Python API 封装,所以它的核心是 tesseract  因此,在安装 tesserocr 前,我 们需 要先安装 tesseract 。
2.相关链接
3. Windows 下的安装
在Window 下,首先需要下载 tesseract ,它为 tesserocr 提供了支持,进入下载页面, 其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本。
例如可以选择下载 tesseract-ocr-w64-setup-v5.0.1.20220107.exe

 下载完成后双击, 好像没有中文版的

然后一直点 next 和 i agree 就行,直到

        此时可以句选 Additional languag e data download 选项来安装 OCR 识别支持的语 包,这样 OCR 便可以识别多国语言 然后一直 点击 Next 按钮 即可
接下来 再安装 t esse rocr 即 可,此时直接使用 p ip 安装
pip install tesserocr pillow
#或
pip3 install tesserocr pillow

4.验证安装

接下来,我 们可以使用 tesseract tesserocr 来分别进 行测试下面这张图片

首先,用 tesseract 命令测试:

 打开照片所在文件夹,按住 shift 击右键 打开 powershell窗口 输入下面命令:

tesseract image.png stdout -l eng

得到结果:

然后,我们看一下在python中如何演示:

首先,现安装库

pip install pytesseract

如何想要在python中使用 pytesseract 库,则需要先添加 tesseract 的环境变量

1.将tesseract.exe添加到环境变量PATH中

我的电脑——右键——属性——高级系统设置——环境变量——将 tesseract.exe 所在的文件夹的路径添加到 path 中

2. 修改pytesseract.py文件,指定tesseract.exe安装路径

然后打开它

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd=r'D:\Tesseract-OCR\tesseract.exe'
image=Image.open('D:\桌面\python\jupyter\image.png')#所要识别的图片的位置
#默认是英文,如果是英文就不需更改
text=pytesseract.image_to_string(image)
#默认是英文,如果是中文,要将语言改成中文。
# text=pytesseract.image_to_string(image,lang='chi_sim')
print(text)

返回:

 

库,先安装到这里,后面还有很多很多,等我慢慢补充,嘿嘿!!!  

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐