solr:如何保留不同URL的重复内容

时间:2013-11-18 11:35:14

标签: solr digest duplicate-content

我们的内部网络中有一些网页具有相同内容的相似页面(例如UPS mgmt控制台)。 solr总是只保留其中一个,因为它们具有相同的摘要。

    Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
    SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
    SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
    SolrDeleteDuplicates: deleting 4 duplicates
    SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
    crawl finished: crawl

所有4个删除的重复项都有不同的网址。我想把所有这些都保存在solr中,而solr仍然可以删除其他类型的重复内容。 我猜这个url默认不用于生成摘要,所以有没有办法设置使用url?我还有其他选择吗?

0 个答案:

没有答案