场景描述

  • 在使用Selenium的时候,如果遇到a标签列表,而且每个都需通过点击(click())进入a标签对应的页面进行单独处理,而直接访问a链接无法访问(防盗链),那么这个时候该怎么处理呢?
  • 最好的办法就是先获取到a标签列表,然后遍历a标签列表,依次在新标签页上打开链接,然后切换到新标签页再做单独处理,处理完毕后再调用close()方法关闭当前标签页。
  • 对于a标签中带有target="_blank"参数的链接,打开的时候会自动在新的标签页打开,如:
    <a href="http://news.baidu.com" target="_blank">新闻</a>
    
  • 对于没有带target="_blank"参数的链接,如:<a href="http://news.baidu.com">新闻</a>打开的时候会在当前标签页打开,这样就会覆盖掉原来的a标签列表页,导致后边的链接无法打开(防盗链),那么遇到这种情况该怎么在新标签页打开a标签呢?

解决方案

from selenium import webdriver
from selenium.webdriver.common.by import By


driver = webdriver.Chrome()
driver.get(url)
# 查找帖子列表(40条)
post_list = driver.find_elements(By.XPATH, '//ul[@id="waterfall"]/li/h3/a[1]')
# 存储原始窗口的 ID
original_window = driver.current_window_handle
for i in range(0, 40):
    # 点击进入帖子
    print(f'第{i + 1}个帖子')
    # 获取帖子链接
    href = post_list[i].get_attribute('href')
    # 在新的标签页打开链接
    driver.execute_script(f'window.open("{href}", "_blank");')
    # 切换到新的标签页
    driver.switch_to.window(driver.window_handles[-1])
    # 单独处理
    do sth...
    # 关闭当前标签页
    driver.close()
    # 切回到之前的标签页
    driver.switch_to.window(original_window)
driver.quit()

参考链接

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐