下载数以千计的网址

时间:2014-02-21 09:46:26

标签: c# httpwebrequest httpwebresponse

我正在开发一些服务,必须进入我的客户网站并处理它的内容。您可能理解,我的服务每小时下载数千个URL。其中一些URL来自同一个域。

为了使流程更快,我的应用程序包含100个线程。每个线程下载一个URL并处理它的内容。

我注意到在下载网页一段时间后,我的“WebRequest.GetResponse()”被卡住了。在超时期限之后,WebRequest会抛出Timeout-Exceptions(来自执行相同工作的所有线程)。网址有效且可下载(已选中)。

好的,所以我怀疑服务器正在砍掉机器人做这项工作并停止响应它的请求。

针对这种情况的一种解决方案是使用TOR系统。这将使请求的Web服务器失败,就像它是另一个请求信息的客户端。坏的一面是TOR IP是公共的,一些服务器正在阻止这些IP。因此,对于那些特定的服务器,解决方案将无法正常工作。

我正在寻找更好的解决方案,某人?

1 个答案:

答案 0 :(得分:0)

如果您有网站所有者的许可,请他将您的IP添加到防火墙/ DDoS保护。

如果他已设置此功能,他应该能够将IP添加到允许列表