Nutch 2.x:将信息从一个WebPage传递到另一个WebPage以使用elasticsearch进行索引

时间:2018-06-06 23:40:27

标签: elasticsearch nutch

我使用Nutch 2.x抓取一个域,其中每个html页面都有一个指向pdf文档的链接。

  1. 对于每个html页面,我使用插件提取信息并将其添加到元数据中。
  2. 对于每个pdf文档,tika解析器都会提取文本。
  3. 我想要做的是加入从html页面提取的数据和相应pdf文档的文本,并使用elasticsearch索引所有这些文档。

    我想通过访问相应html页面的WebPage解析或索引pdf时这样做,但我找不到办法。

    这可行吗?如果不是,我会感激任何建议。

    谢谢!

1 个答案:

答案 0 :(得分:0)

我使用Nutch 1.x遇到了类似的问题(但使用图像),我的方法基本上是编写一个自定义ScoringFilter,它从HTMl获取信息并将其分发到{{1} outlinks(仅在我的情况下指向图片的外链)。

在Nutch 2.x中,事情有点不同,但我认为类似的事情可以在CrawlDatum的{​​{1}}方法中完成。在这种情况下,您无权访问外向链接的distributeScoreToOutlinks对象,但您可以访问ScoringFilter对象。