我一直在用硒/幻影js快乐地生气。最近,我注意到我正在抓取的一个网站,开始返回一个“坏”页面(每2-3页没有相关内容的页面) - 不清楚为什么。我测试了python请求,我得到了类似的结果(问题),虽然它稍微好一些(在我得到一个坏的之前更像3-4页)。
我的所作所为:
service_args=['--ignore-ssl-errors=true']
我每天只跑两次~9小时。无论我在笔记本电脑上运行代码还是在云端的某个地方运行Ubuntu,问题都是一样的。
思想?
答案 0 :(得分:0)
如果服务器限制或阻止您,您需要联系服务器的管理员并要求他将您列入白名单。 除了试图刮得更慢之外,你无能为力。
如果服务器过载,您可以尝试一天中的不同时间。如果服务器被窃听,请尝试重现它并通知管理员。