我目前正在尝试将种子网址包含在我的搜索后端(目前是ElasticSearch)中为每个网址编制索引的数据中。
我在this previous question中看到元数据可以与每个种子一起传递,这可能符合我的需要。但是,我使用REST API来create my seed list,似乎seedUrls
参数中不允许使用元数据。
是否有人尝试使用REST API执行此操作?
还有另一种方法可以达到这个目的吗? 我以为我可以编写一个自定义的IndexingFilter来在NutchDocument中添加种子URL以进行索引,但此时,我看到的种子URL不可用。
提前致谢!
答案 0 :(得分:1)
目前,REST API似乎不支持处理关联的元数据。我认为这需要付出很大的努力来完成,基本上我们只需要处理JSON有效负载并自定义相应的实体SeedUrl
来保存元数据,当然还要自定义writeToSeedFile
方法。
虽然您编写IndexingFilter
的方法不起作用。种子URL是在爬网生命周期的最开始时注入的,而IndexingFilter
只负责选择索引到存储中的内容。