Nutch + Solr-清洁需要很长时间才能完成

时间:2018-08-21 12:29:12

标签: hadoop solr web-crawler search-engine nutch

我正在使用Apache Nutch + Solr构建搜索引擎。

我正在使用bin/crawl脚本进行爬网和索引编制。我已经索引了大约50,000个文档,现在,cleaning phase每次迭代大约需要 6分钟(而之前的阶段大约需要 2分钟)。

查看hadoop.log文件时,我发现在每次迭代中,indexer.CleaningJob阶段中已删除文档的总数增加了(当前数量为11,700个已删除文档)。

为什么要花这么长时间才能解决?我该怎么做才能解决这个问题?

我将不胜感激!

1 个答案:

答案 0 :(得分:0)

选择用于索引索引的文档是不对称的。清洁:

  • 在每个爬网周期中,由于需要内容(解析的数据和文本),因此仅索引/更新了最后一段的文档
  • 但是,从索引中删除了CrawlDb中包含的所有404,重复项,重定向等。虽然也可以使用基于HTTP响应状态的分段来删除404和重定向,但某些作业会修改CrawlDb中的状态(例如,基于内容签名检测重复项)。

随着时间的推移,CrawlDb会增长并变得比单个片段大得多。这减慢了清洁工作。您可以修改bin / crawl脚本,以便并非每个周期都进行删除。