我必须从几个网页上抓取信息并使用BeautifulSoup +请求+线程。我创建了许多工作程序,每个工作程序从队列中获取URL,下载它,从HTML中擦除数据并将结果放入结果列表。 This是我的代码,我认为将其粘贴到此处的时间太长了。
但是我遇到了以下问题 - 这个网站probalby限制了每分钟一个IP的请求数量,因此抓取的速度并没有那么快。但是有一台服务器有不同的IP,所以我想我可以利用它。
我想为服务器创建一个脚本来监听某个端口(带有套接字)并接受URL,处理它们,然后将结果发送回我的主机。
但我不确定是否没有现成的解决方案,这个问题对我来说似乎很常见。如果有,我应该使用什么?
答案 0 :(得分:1)
大多数Web服务器都使用rate limiting
来节省资源并防止DoS
攻击;这是一项共同的安全措施。
现在调查你的问题,这些是你可以做的事情。
您需要检查服务器中拒绝网页的真正原因;写一个明确的答案是非常笼统的话题;以下是您可以做的某些事情,以找出导致您的请求被拒绝的原因,并选择上述方法之一来解决问题。