我发现Stormcrawler中还没有支持Document Deduplication。这是未来的问题吗?我问这个是因为我看到Signature元数据可以添加到Status核心中,并且可以用于在索引之前删除具有相同签名值的重复项。如果我正在思考正确的方向,那只是一个想法?
谢谢,
苏曼
答案 0 :(得分:0)
MD5SignatureParseFilter根据文档内容计算签名。这用于AdaptiveScheduling以确定文档是否已更改。您可以将相同的元数据索引到SOLR中进行重复数据删除,例如将其用作文档的主键。 由于StormCrawler独立地查看每个文档,因此很难以与Nutch对MapReduce相同的方式对重复项进行操作。一种选择是让外部进程直接将重复项解析到索引后端(例如SOLR),但这将在StormCrawler和后端依赖之外。
简而言之,如果您可以将哈希用作重复数据删除的主键,那么您已经拥有了所需的所有元素,但这可能与StormCrawler的内容有关。
你在哪里看到了吗?我发现在Stormcrawler中还不支持Document Deduplication。