我们的内部网络中有一些网页具有相同内容的相似页面(例如UPS mgmt控制台)。 solr总是只保留其中一个,因为它们具有相同的摘要。
Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
SolrDeleteDuplicates: deleting 4 duplicates
SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
crawl finished: crawl
所有4个删除的重复项都有不同的网址。我想把所有这些都保存在solr中,而solr仍然可以删除其他类型的重复内容。 我猜这个url默认不用于生成摘要,所以有没有办法设置使用url?我还有其他选择吗?