哪个网络爬虫用于从大约一千个网站中提取和解析数据

时间:2009-10-31 08:11:31

标签: web-crawler

我正在尝试抓取大约一千个网站,我只对html内容感兴趣。

然后我将HTML转换为XML,用Xpath解析,以提取我感兴趣的特定内容。

我已经使用Heritrix 2.0爬虫几个月了,但是我遇到了巨大的性能,内存和稳定性问题(Heritrix每天崩溃,并且没有尝试使用JVM参数来限制内存使用成功)。

根据您在该领域的经验,您将使用哪种抓取工具从一千个来源中提取和解析内容?

3 个答案:

答案 0 :(得分:3)

我建议您使用Scrapy以及lxmlBeautifulSoup个软件包编写自己的Python。你应该在谷歌找到一些很好的教程。我在工作中使用Scrapy + lxml蜘蛛~600个网站检查链接是否断开。

答案 1 :(得分:3)

我会使用2.x分支(已停止使用)或3.x(当前开发)进行任何“严重”抓取,除非您想要帮助改进Heritrix或者只是喜欢处于最前沿。

Heritrix 1.14.3是最新的稳定版本,它确实 稳定,被许多机构用于小规模和大规模爬行。我正在使用对数万个域进行爬网,在一周内收集数千万个URL。

3.x分支越来越接近稳定版本,但即便如此,我还要稍等一下,以便在互联网档案馆和其他人处理,以提高其性能和稳定性。

更新:由于最近有人对此进行了投票,我觉得值得注意的是Heritrix 3.x现在已经稳定,并且是推荐使用Heritrix的推荐版本。

答案 2 :(得分:0)

哇。像搜索引擎这样的最先进的爬虫使用爬行和索引100万个URL每天在一个sinlge盒子上。确实HTML到XML渲染步骤需要一点但我同意你的表现。我只使用私人抓取工具,所以我不能推荐你能够使用的,但希望这个性能数字有助于你的评估。