python爬图一篇过（四）【超·详细】：blob:https类型图片处理

白熊快跑 · 2022-02-13 03:12:37 发布

前不久博主在爬取图片的过程中，又遇到了一个新问题：

图片出现了blob:https+地址的格式，使用requests库访问这个网址，会发现是无法得到图片内容的。

搜索了一番后，这类blob原来全称是二进制大型对象（Binary Large Object），表示一个不可变、原始数据的类文件对象。它的数据可以按文本或二进制的格式进行读取，格式比较灵活，一方面适合实时加载（常常见于视频文件），一方面可以有一定反爬效果。

但破绽也是有的：当浏览器识别了blob对象后，会向服务器请求真实的文件地址。

对于此类图片，我们只需查看其真实请求到的文件网址即可。

步骤：

得到目标地址后，直接爬取就得到图片了。

前面讲过分享代码，但我又想发到git上，结果不晓得咋整，后来搁置了。Anyway，下一章将会接着前面selenium库加上多进程的内容，喜欢的小伙伴可以点赞关注下！！

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

Hermes进阶医疗行业落地：LLM Wiki + Obsidian图谱建设脂肪性肝病智能知识网络

【GaussDB】GaussDB等保测评命令大集合

GaussDB for DWS 数据融合：Oracle数据迁移到GaussDB(DWS)

查看更多评论

已为社区贡献1条内容

温馨提示：您尚未绑定手机号