我有两个内容相同但网址不同的网页。一个网址以http://www.example.com开头,另一个网址以http://example.com开头。在我使用Solrdedup删除Solr中的重复数据后。我发现两者都留在那里。有谁知道这里发生了什么?
答案 0 :(得分:2)
nutch架构将id(= url)定义为唯一键。如果这对你不好,那就改变它。 schema.xml
中的相应行是:
<uniqueKey>url</uniqueKey>
但更好的解决方案可能是执行以下操作:如果您可以通过
访问您的服务器http://www.example.com
和
http://example.com
您应该考虑使用regex-url过滤器仅抓取其中一个来防止重复。