solr - 使用StormCrawler进行重复数据删除

使用StormCrawler进行重复数据删除

时间：2018-03-21 21:19:11

标签： solr apache-storm stormcrawler

我发现Stormcrawler中还没有支持Document Deduplication。这是未来的问题吗？我问这个是因为我看到Signature元数据可以添加到Status核心中，并且可以用于在索引之前删除具有相同签名值的重复项。如果我正在思考正确的方向，那只是一个想法？

谢谢，

苏曼

1 个答案:

答案 0 :(得分：0)

MD5SignatureParseFilter根据文档内容计算签名。这用于AdaptiveScheduling以确定文档是否已更改。您可以将相同的元数据索引到SOLR中进行重复数据删除，例如将其用作文档的主键。由于StormCrawler独立地查看每个文档，因此很难以与Nutch对MapReduce相同的方式对重复项进行操作。一种选择是让外部进程直接将重复项解析到索引后端（例如SOLR），但这将在StormCrawler和后端依赖之外。

简而言之，如果您可以将哈希用作重复数据删除的主键，那么您已经拥有了所需的所有元素，但这可能与StormCrawler的内容有关。

我发现在Stormcrawler中还不支持Document Deduplication。

你在哪里看到了吗？