Question

我有两个内容相同但网址不同的网页。一个网址以http://www.example.com开头，另一个网址以http://example.com开头。在我使用Solrdedup删除Solr中的重复数据后。我发现两者都留在那里。有谁知道这里发生了什么？

Answer 1

nutch架构将id（= url）定义为唯一键。如果这对你不好，那就改变它。 schema.xml中的相应行是：

<uniqueKey>url</uniqueKey>

但更好的解决方案可能是执行以下操作：如果您可以通过

访问您的服务器

http://www.example.com

和

http://example.com

您应该考虑使用regex-url过滤器仅抓取其中一个来防止重复。