使用SOLR重复数据删除保留一个重复文章条目

时间:2012-08-03 11:48:42

标签: solr deduplication

我在solrconfig.xml中使用了Solr重复数据删除和以下设置

<updateRequestProcessorChain name="dedupe">
   <processor class="solr.processor.SignatureUpdateProcessorFactory">
     <bool name="enabled">true</bool>
     <str name="signatureField">signature</str>
     <bool name="overwriteDupes">true</bool>
     <str name="fields">description</str>
     <str name="signatureClass">solr.processor.TextProfileSignature</str>
   </processor>
   <processor class="solr.LogUpdateProcessorFactory" />
   <processor class="solr.RunUpdateProcessorFactory" />
 </updateRequestProcessorChain>

和schema.xml

<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />

我的目标是查找包含重复说明的文档(使用TextProfileSignature进行近似重复)保留一个条目并删除其他重复条目。

例如 DOC1 说明:Websol - 候选人应具备良好的沟通和计算机技能 必须愿意搬迁 我们在国际呼叫中心的后勤办公室有很好的空缺

DOC2 说明:Websol - 候选人应具备良好的沟通和计算机技能 必须愿意搬迁 我们在国际呼叫中心的后勤办公室有很好的空缺......

从这两个文档中只有一个被删除而不是两个,但使用solr重复数据删除这两个条目都会被删除。

如果我在设置中缺少任何东西,或者我需要按照其他方式实现此目的,请告诉我。

1 个答案:

答案 0 :(得分:1)

你可能患有known issue