应用错误收集

时间：2018-08-21 12:29:12

标签： hadoop solr web-crawler search-engine nutch

我正在使用Apache Nutch + Solr构建搜索引擎。

我正在使用bin/crawl脚本进行爬网和索引编制。我已经索引了大约50,000个文档，现在，cleaning phase每次迭代大约需要 6分钟（而之前的阶段大约需要 2分钟）。

查看hadoop.log文件时，我发现在每次迭代中，indexer.CleaningJob阶段中已删除文档的总数增加了（当前数量为11,700个已删除文档）。

为什么要花这么长时间才能解决？我该怎么做才能解决这个问题？

我将不胜感激！

答案 0 :(得分：0)

选择用于索引索引的文档是不对称的。清洁：

在每个爬网周期中，由于需要内容（解析的数据和文本），因此仅索引/更新了最后一段的文档
但是，从索引中删除了CrawlDb中包含的所有404，重复项，重定向等。虽然也可以使用基于HTTP响应状态的分段来删除404和重定向，但某些作业会修改CrawlDb中的状态（例如，基于内容签名检测重复项）。

随着时间的推移，CrawlDb会增长并变得比单个片段大得多。这减慢了清洁工作。您可以修改bin / crawl脚本，以便并非每个周期都进行删除。