当Nutch完成其抓取时,它会识别出要删除的重复内容并通过说“删除xxx重复”并完成没有任何问题。唯一的问题是它实际上并没有删除重复项,尽管它说它有。
我也尝试过自己使用的重复数据删除命令,结果是一样的。
我有Solr& Nutch Set-up如我在博客上所示,如果你想深入研究,每个阶段都在不同的帖子中:
http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html
答案 0 :(得分:0)
在signatureField标签中,我有“id”而不是“signature”
<updateRequestProcessorChain name="dedupe">
<processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<bool name="overwriteDupes">true</bool>
<str name="signatureField">signature</str>
<str name="fields">id</str>
<str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
现在完美运作