应用错误收集

时间：2009-10-31 08:11:31

标签： web-crawler

我正在尝试抓取大约一千个网站，我只对html内容感兴趣。

然后我将HTML转换为XML，用Xpath解析，以提取我感兴趣的特定内容。

我已经使用Heritrix 2.0爬虫几个月了，但是我遇到了巨大的性能，内存和稳定性问题（Heritrix每天崩溃，并且没有尝试使用JVM参数来限制内存使用成功）。

根据您在该领域的经验，您将使用哪种抓取工具从一千个来源中提取和解析内容？

答案 0 :(得分：3)

我建议您使用Scrapy以及lxml或BeautifulSoup个软件包编写自己的Python。你应该在谷歌找到一些很好的教程。我在工作中使用Scrapy + lxml蜘蛛~600个网站检查链接是否断开。

答案 1 :(得分：3)

我会不使用2.x分支（已停止使用）或3.x（当前开发）进行任何“严重”抓取，除非您想要帮助改进Heritrix或者只是喜欢处于最前沿。

Heritrix 1.14.3是最新的稳定版本，它确实稳定，被许多机构用于小规模和大规模爬行。我正在使用对数万个域进行爬网，在一周内收集数千万个URL。

3.x分支越来越接近稳定版本，但即便如此，我还要稍等一下，以便在互联网档案馆和其他人处理，以提高其性能和稳定性。

更新：由于最近有人对此进行了投票，我觉得值得注意的是Heritrix 3.x现在已经稳定，并且是推荐使用Heritrix的推荐版本。

答案 2 :(得分：0)

哇。像搜索引擎这样的最先进的爬虫使用爬行和索引100万个URL每天在一个sinlge盒子上。确实HTML到XML渲染步骤需要一点但我同意你的表现。我只使用私人抓取工具，所以我不能推荐你能够使用的，但希望这个性能数字有助于你的评估。