为什么Nutch Solrdedup无法删除重复的网页

时间:2012-02-25 21:31:22

标签: nutch

我有两个内容相同但网址不同的网页。一个网址以http://www.example.com开头,另一个网址以http://example.com开头。在我使用Solrdedup删除Solr中的重复数据后。我发现两者都留在那里。有谁知道这里发生了什么?

1 个答案:

答案 0 :(得分:2)

nutch架构将id(= url)定义为唯一键。如果这对你不好,那就改变它。 schema.xml中的相应行是:

<uniqueKey>url</uniqueKey>

但更好的解决方案可能是执行以下操作:如果您可以通过

访问您的服务器
http://www.example.com

http://example.com

您应该考虑使用regex-url过滤器仅抓取其中一个来防止重复。