所以我正在使用https://github.com/bartdag/pylinkvalidator,似乎是在页面上查找404的好工具。但是我正在抓取的网站已将404重定向到漂亮的sorry for 404
页面。因此抓取工具脚本未检测到原始链接404。
我写了一个小脚本,该脚本打印了原始链接302和目标链接的日志记录,但是要单独获取该链接,我需要像pylinkvalidator
一样爬行整个网站。
此脚本单独执行链接,但需要抓取整个网站
import requests
link = 'https://example.com/1234sdsd'
r = requests.get(link, allow_redirects=False)
print(link,r.status_code, r.headers['Location'])
其他任何工具都可以像硒一样很好,但是我认为它也会有同样的问题。