python爬虫学习之爬取某网站上的视频
B站Python爬虫实战教程之爬取某网站上的视频。实现步骤:1.发送请求,对于视频信息数据包发送请求;2.获取数据,获取服务器返回的数据;3.解析数据,提取我们想要的内容:视频url地址、视频标题;4.保存数据,将视频内容保存到本地文件夹。视频地址:https://www.bilibili.com/video/BV1qJ411S7F6?p=7.........
·
"""
实现步骤:发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
1.发送请求,对于视频信息数据包发送请求
2.获取数据,获取服务器返回的数据
3.解析数据,提取我们想要的内容:视频url地址、视频标题
4.保存数据,将视频内容保存到本地文件夹
"""
import requests # 数据请求模块
from pprint import pprint # 格式化输出
import re # 正则表达式模块
import json
import os
def get_response(url):
"""发送请求"""
# headers:请求头,将python代码进行伪装
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
return response
def get_video_info(video_id):
"""获取视频数据"""
url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1657784282961'
response = get_response(url)
# print(response.text)
# print(response.json())
# json数据其实就是字典数据类型
# 根据key获取值
# pprint(response.json())
# 获取视频标题
title = response.json()['data']['moment']['title']
# 在Windows操作系统中 保存的数据不能包含一些特殊字符
title = re.sub(r'【.*?】', '', title)
title = re.sub(r'[\/:*?"<>|\n]', '_', title)
# 获取视频地址
video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url']
video_info = [title, video_url]
return video_info
def save(title, video_url):
"""保存数据"""
# 发送网络请求:请求每一个视频地址,获取视频二进制数据
video_content = get_response(url=video_url).content
dir_name = 'videos/'
# 判断该文件夹是否存在
if not os.path.exists(dir_name):
# 不存在则创建
os.mkdir(dir_name)
with open(dir_name + title + '.mp4', mode='wb') as f:
f.write(video_content)
print(f'视频:{title}----------下载完成')
"""
爬取多个视频内容:
通过爬取单个视频可以发现 >>> 只需更改视频ID就可以下载不同的视频内容 >>> 只要获取所有视频的ID,即可下载所有视频内容
1.发送请求,对于视频信息数据包发送请求
2.获取数据,获取服务器返回的数据
3.解析数据,提取我们想要的内容:视频ID
4.保存数据,将视频内容保存到本地文件夹
"""
def get_video_ids(url):
"""获取视频ID"""
html_data = get_response(url).text
# print(html_data)
# 正则表达式解析数据
video_data = re.findall('<script> window.HNF_GLOBAL_INIT = (.*?)</script>', html_data)[0]
# print(video_data)
# 需要把字符串数据转字典数据
json_data = json.loads(video_data)
# 字典取值的方法 提取视频信息数据 返回的列表,而列表里面的元素是字典
video_id_list = json_data['videoData']['videoDataList']['value']
video_ids = [i['vid'] for i in video_id_list] # 列表推导式
# pprint(video_ids)
return video_ids
def main(html_url):
"""主函数"""
# 获取视频ID列表
video_ids = get_video_ids(html_url)
# 遍历ID列表
for video_id in video_ids:
# 获取视频信息
video_info = get_video_info(video_id)
# print(video_info[0], video_info[1])
# 保存视频
save(video_info[0], video_info[1])
if __name__ == '__main__':
url = "https://v.huya.com/g/all?set_id=51&order=hot&page=1"
main(url)
# video_id = '740744695'
# video_info = get_video_info(video_id)
# print(video_info[0], video_info[1])
参考地址:
更多推荐
已为社区贡献18条内容
所有评论(0)