索引数据时出现Solr重复数据删除错误

时间:2018-08-02 10:36:47

标签: solr duplicates

我在solr 6.5中集成了nutst 2.3.1,因此我可以将数据推送到solr并获得索引。现在,我要删除重复的元素,为此,我在schema.xml和solrconfig.xml中进行了修改

<field name="signatureField" type="string" stored="true" indexed="true" multiValued="false" />



<updateRequestProcessorChain name="dedupe">
   <processor class="solr.processor.SignatureUpdateProcessorFactory">
     <bool name="enabled">true</bool>
     <str name="signatureField">id</str>
     <bool name="overwriteDupes">false</bool>
     <str name="fields">id,content,date,url</str>  <!-- changing to id <str name="fields">name,features,cat</str>-->
     <str name="signatureClass">solr.processor.Lookup3Signature</str>
   </processor>
   <processor class="solr.LogUpdateProcessorFactory" />
   <processor class="solr.RunUpdateProcessorFactory" />
 </updateRequestProcessorChain>

<requestHandler name="/update" class="solr.UpdateRequestHandler" >
<lst name="defaults">
<str name="update.chain">dedupe</str>
</lst>
</requestHandler> 

但在索引bin / nutch solrindex http://localhost:8983/solr/testcore之后-all 错误! 请帮助我解决此问题

预先感谢您:)

1 个答案:

答案 0 :(得分:0)

此问题可能与更新的架构有关,如果Solr中存在一些数据,并且在核心中存在该数据时又更新了该架构,Nutch会将其视为不匹配的架构,解决此问题的最佳方法是重新爬网更新了架构的网页,并请记住,对该架构的任何更新都会/可能会导致您现有索引出现问题。

由于帖子已经很老了,可能有同样问题的人可以参考。

最佳:)