我注意到在每次Nutch爬行期间,发送给Solr的索引都不一致。有时会显示网页的最新更改,有时会显示较旧的更改。
原因
注意到Nutch正在将旧片段的索引提供给Solr。
当前解决方案
在获取之前删除所有旧段并且似乎解决了问题。
问题
想知道这种方法是否有任何影响,或者我对此的理解是不正确的。还想知道为什么Nutch在抓取过程中不会自动删除较旧的片段。
感谢。
答案 0 :(得分:0)
如果多个段被索引(再次)并且两个或多个段中包含相同的段,则无法保证最新版本已编制索引。这是一个已知问题(NUTCH-1416)。最简单的解决方案是仅将最近提取的段发送给索引器。脚本bin/crawl
执行此操作,索引步骤在每个周期结束时为在此周期中提取的段完成。