HTTP Error 403: Forbidden 爬虫打开网页报错(已解决)
1.首先先来看初始的代码import urllib.requesturl = "http://jandan.net/ooxx"response = urllib.request.urlopen(url)html = response.read().decode("utf-8")print(html)这里直接是给urlopen()传入网址,没有经过任何的隐藏所以报错因为现在大部分的网站都是有反爬的,
·
1.首先先来看初始的代码
import urllib.request
url = "http://jandan.net/ooxx"
response = urllib.request.urlopen(url)
html = response.read().decode("utf-8")
print(html)
这里直接是给urlopen()传入网址,没有经过任何的隐藏所以报错
因为现在大部分的网站都是有反爬的,会给你识别到是不是用户访问页面的
这里就需要访问的时候添加headers属性
更改后代码为:
import urllib.request
url = "http://jandan.net/ooxx"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400'}
url = urllib.request.Request(url,headers = headers)
response = urllib.request.urlopen(url)
html = response.read().decode("utf-8")
print(html)
运行结果:
完美解决
不知道he’aders属性如何获取的,来看我另一篇文章吧:
——>获取headers方法<——
更多推荐
已为社区贡献4条内容
所有评论(0)