我在solrconfig.xml中使用了Solr重复数据删除和以下设置
<updateRequestProcessorChain name="dedupe">
<processor class="solr.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<str name="signatureField">signature</str>
<bool name="overwriteDupes">true</bool>
<str name="fields">description</str>
<str name="signatureClass">solr.processor.TextProfileSignature</str>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
和schema.xml
<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />
我的目标是查找包含重复说明的文档(使用TextProfileSignature进行近似重复)保留一个条目并删除其他重复条目。
例如 DOC1 说明:Websol - 候选人应具备良好的沟通和计算机技能 必须愿意搬迁 我们在国际呼叫中心的后勤办公室有很好的空缺
DOC2 说明:Websol - 候选人应具备良好的沟通和计算机技能 必须愿意搬迁 我们在国际呼叫中心的后勤办公室有很好的空缺......
从这两个文档中只有一个被删除而不是两个,但使用solr重复数据删除这两个条目都会被删除。
如果我在设置中缺少任何东西,或者我需要按照其他方式实现此目的,请告诉我。