我正在使用Apache Nutch + Solr构建搜索引擎。
我正在使用bin/crawl
脚本进行爬网和索引编制。我已经索引了大约50,000个文档,现在,cleaning phase
每次迭代大约需要 6分钟(而之前的阶段大约需要 2分钟)。
查看hadoop.log
文件时,我发现在每次迭代中,indexer.CleaningJob
阶段中已删除文档的总数增加了(当前数量为11,700个已删除文档)。
为什么要花这么长时间才能解决?我该怎么做才能解决这个问题?
我将不胜感激!
答案 0 :(得分:0)
选择用于索引索引的文档是不对称的。清洁:
随着时间的推移,CrawlDb会增长并变得比单个片段大得多。这减慢了清洁工作。您可以修改bin / crawl脚本,以便并非每个周期都进行删除。