Nutch没有从Solr删除重复项

时间:2013-07-27 19:22:31

标签: solr duplicates nutch

当Nutch完成其抓取时,它会识别出要删除的重复内容并通过说“删除xxx重复”并完成没有任何问题。唯一的问题是它实际上并没有删除重复项,尽管它说它有。

我也尝试过自己使用的重复数据删除命令,结果是一样的。

我有Solr& Nutch Set-up如我在博客上所示,如果你想深入研究,每个阶段都在不同的帖子中:

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

1 个答案:

答案 0 :(得分:0)

在signatureField标签中,我有“id”而不是“signature”

<updateRequestProcessorChain name="dedupe">
  <processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory">
    <bool name="enabled">true</bool>
    <bool name="overwriteDupes">true</bool>
    <str name="signatureField">signature</str>
    <str name="fields">id</str>
    <str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str>
  </processor>
  <processor class="solr.LogUpdateProcessorFactory" />
  <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

现在完美运作