我经常刮擦,但到目前为止,我正在使用 VPN 刮擦。我想开始使用代理,但我遇到的问题,尤其是免费代理,是免费代理非常不可靠。
与代理问题相比,如何判断网页是否存在问题?有超时、连接错误等异常,但这些异常都会在代理坏了以及网页出现问题时发生。
因此,换句话说,与我想抓取的 URL 存在问题并且我应该停止尝试并跳过它时相比,我如何知道我是否需要轮换失效代理?
答案 0 :(得分:1)
很难区分网站已关闭和代理无法正常运行,因为您可能会遇到相同的 HTTP 错误。
我的建议是创建一个代理检查器:一个简单的工具,它将遍历您的代理列表,连接到一个并访问您控制的网站(想想一个简单的 Express 网络服务器,具有单个端点) .代理检查器将每 30 秒运行一次。
通过这种方式,您可以保证网站永远不会关闭(您不会阻止自己),如果出现错误,则肯定是代理错误。
一旦出现错误,您就从列表中删除代理(稍后在它重新上线时添加)。