应用错误收集

时间：2016-06-27 04:19:15

标签： c# .net web-crawler screen-scraping

我已经构建了一个robots.txt抓取工具，可以从机器人中提取网址，然后在页面完成后加载页面并进行一些后期处理。这一切都发生得非常快，我可以从每秒5页提取信息。

如果网站没有robots.txt，我会使用Abot Web Crawler。问题是Abot远比直接robots.txt爬虫慢。看来，当Abot点击一个包含大量链接的页面时，它会非常缓慢地安排每个链接。有些页面需要20多秒才能将所有页面排队并按上述方式运行后期处理。

我使用PoliteWebCrawler，它被配置为不抓取外部页面。我应该一次抓取多个网站还是另一个更快的Abot解决方案？

谢谢！

答案 0 :(得分：2)

您抓取的网站是否有可能无法处理大量并发请求？一个快速的测试是打开一个浏览器，并在Abot抓取它时开始点击该网站。如果浏览器明显变慢，则服务器显示负载迹象。

如果这是问题，您需要通过配置设置减慢爬行速度。

如果没有，您是否可以提供正在慢慢抓取的网站或网页的网址？ Abot的完整配置也会有所帮助。

答案 1 :(得分：2)

为Abot添加了一个修补程序以解决此问题。应该在nuget版本1.5.1.42中可用。有关详细信息，请参阅issue #134。你能证实这解决了你的问题吗？