我已经构建了一个robots.txt抓取工具,可以从机器人中提取网址,然后在页面完成后加载页面并进行一些后期处理。这一切都发生得非常快,我可以从每秒5页提取信息。
如果网站没有robots.txt,我会使用Abot Web Crawler。问题是Abot远比直接robots.txt爬虫慢。看来,当Abot点击一个包含大量链接的页面时,它会非常缓慢地安排每个链接。有些页面需要20多秒才能将所有页面排队并按上述方式运行后期处理。
我使用PoliteWebCrawler,它被配置为不抓取外部页面。我应该一次抓取多个网站还是另一个更快的Abot解决方案?
谢谢!
答案 0 :(得分:2)
您抓取的网站是否有可能无法处理大量并发请求?一个快速的测试是打开一个浏览器,并在Abot抓取它时开始点击该网站。如果浏览器明显变慢,则服务器显示负载迹象。
如果这是问题,您需要通过配置设置减慢爬行速度。
如果没有,您是否可以提供正在慢慢抓取的网站或网页的网址? Abot的完整配置也会有所帮助。
答案 1 :(得分:2)
为Abot添加了一个修补程序以解决此问题。应该在nuget版本1.5.1.42中可用。有关详细信息,请参阅issue #134。你能证实这解决了你的问题吗?