应用错误收集

所以我正在使用https://github.com/bartdag/pylinkvalidator，似乎是在页面上查找404的好工具。但是我正在抓取的网站已将404重定向到漂亮的sorry for 404页面。因此抓取工具脚本未检测到原始链接404。

我写了一个小脚本，该脚本打印了原始链接302和目标链接的日志记录，但是要单独获取该链接，我需要像pylinkvalidator一样爬行整个网站。

此脚本单独执行链接，但需要抓取整个网站

import requests
link = 'https://example.com/1234sdsd'
r = requests.get(link, allow_redirects=False)
print(link,r.status_code, r.headers['Location'])

其他任何工具都可以像硒一样很好，但是我认为它也会有同样的问题。