应用错误收集

我一直在尝试使用＆＃34; feed＆＃34;在Solr上索引RSS页面。作为解析器（而不是tika。从理论上讲，每个RSS的项目都应该在Solr中创建一个文档。它被创造了！但只是暂时的。实际上，一旦索引成功完成，清理作业就会删除所有RSS项目。

我的猜测是，在crawlDB中找不到RSS项目的url，因此在cleanjob期间它会从Solr中删除它们。它可能是对的吗？

编辑：我注意到所有的条目都有相同的＃34;签名＆＃34;因为抓取者决定如此。因此，重复数据删除将它们标记为重复，清洁工将它们清理干净。

我试图修改这种情况，但我不明白为什么会以这种方式进行配置。

Nutch中的Feed插件会从Feed文件生成多个文档，而不会获取其中列出的URL。我的猜测是它将与feed页面相同的签名分配给所有子文档，正如你所指出的那样，它们会被重复数据删除。

这不应该发生，显然是一个错误。你可以为它开一个JIRA问题吗？

您可以从抓取脚本中删除重复数据删除步骤，以便将文档保留在索引中。

或者你可以编写一个修改后的插件版本，只需从feed中提取外链，让Nutch像往常一样获取子文档。这样每个文档都会获得自己的签名，重复数据删除也会有意义。

您更喜欢的另一个原因是Feed条目可能不包含子文档的整个文本/元数据。

有趣的是，我刚刚添加了一个用于解析StormCrawler中的源的资源，与Nutch中的源不同，它只是检测外链并稍后提取它们。