使用代理进行抓取 - 如何判断代理已死与网络阻止您?

时间:2021-07-25 08:04:03

标签: python web-scraping proxy

我经常刮擦,但到目前为止,我正在使用 VPN 刮擦。我想开始使用代理,但我遇到的问题,尤其是免费代理,是免费代理非常不可靠。

与代理问题相比,如何判断网页是否存在问题?有超时、连接错误等异常,但这些异常都会在代理坏了以及网页出现问题时发生。

因此,换句话说,与我想抓取的 URL 存在问题并且我应该停止尝试并跳过它时相比,我如何知道我是否需要轮换失效代理?

1 个答案:

答案 0 :(得分:1)

很难区分网站已关闭和代理无法正常运行,因为您可能会遇到相同的 HTTP 错误。

我的建议是创建一个代理检查器:一个简单的工具,它将遍历您的代理列表,连接到一个并访问您控制的网站(想想一个简单的 Express 网络服务器,具有单个端点) .代理检查器将每 30 秒运行一次。

通过这种方式,您可以保证网站永远不会关闭(您不会阻止自己),如果出现错误,则肯定是代理错误。

一旦出现错误,您就从列表中删除代理(稍后在它重新上线时添加)。

相关问题