使用Nutch 1.X REST APi沿种子URL传递元数据

时间:2017-01-13 14:41:13

标签: nutch

我目前正在尝试将种子网址包含在我的搜索后端(目前是ElasticSearch)中为每个网址编制索引的数据中。

我在this previous question中看到元数据可以与每个种子一起传递,这可能符合我的需要。但是,我使用REST API来create my seed list,似乎seedUrls参数中不允许使用元数据。

是否有人尝试使用REST API执行此操作?

还有另一种方法可以达到这个目的吗? 我以为我可以编写一个自定义的IndexingFilter来在NutchDocument中添加种子URL以进行索引,但此时,我看到的种子URL不可用。

提前致谢!

1 个答案:

答案 0 :(得分:1)

目前,REST API似乎不支持处理关联的元数据。我认为这需要付出很大的努力来完成,基本上我们只需要处理JSON有效负载并自定义相应的实体SeedUrl来保存元数据,当然还要自定义writeToSeedFile方法。

虽然您编写IndexingFilter的方法不起作用。种子URL是在爬网生命周期的最开始时注入的,而IndexingFilter只负责选择索引到存储中的内容。