Apache Nutch没有正确地索引RSS

时间:2016-06-08 06:25:51

标签: solr rss feed nutch

我一直在尝试使用" feed"在Solr上索引RSS页面。作为解析器(而不是tika。 从理论上讲,每个RSS的项目都应该在Solr中创建一个文档。它被创造了!但只是暂时的。 实际上,一旦索引成功完成,清理作业就会删除所有RSS项目。

我的猜测是,在crawlDB中找不到RSS项目的url,因此在cleanjob期间它会从Solr中删除它们。它可能是对的吗?

编辑: 我注意到所有的条目都有相同的#34;签名"因为抓取者决定如此。因此,重复数据删除将它们标记为重复,清洁工将它们清理干净。

我试图修改这种情况,但我不明白为什么会以这种方式进行配置。

1 个答案:

答案 0 :(得分:1)

Nutch中的Feed插件会从Feed文件生成多个文档,而不会获取其中列出的URL。我的猜测是它将与feed页面相同的签名分配给所有子文档,正如你所指出的那样,它们会被重复数据删除。

这不应该发生,显然是一个错误。你可以为它开一个JIRA问题吗?

您可以从抓取脚本中删除重复数据删除步骤,以便将文档保留在索引中。

或者你可以编写一个修改后的插件版本,只需从feed中提取外链,让Nutch像往常一样获取子文档。这样每个文档都会获得自己的签名,重复数据删除也会有意义。

您更喜欢的另一个原因是Feed条目可能不包含子文档的整个文本/元数据。

有趣的是,我刚刚添加了一个用于解析StormCrawler中的源的资源,与Nutch中的源不同,它只是检测外链并稍后提取它们。