在索引时合并来自不同来源的数据

时间:2016-10-14 12:42:18

标签: elasticsearch logstash

我有两个文件爬虫作业分别在数据上运行,这些作业使用fscrawler(https://github.com/dadoonet/fscrawler)相互关联。现在我想以某种方式在索引(子父关系或平面文档正常)时将数据合并在一起,因此需要一些中间件。查看Logstash和ES 5.0中的新摄取节点功能,似乎都不支持编写自定义处理器。

是否有可能在索引时进行这种合并/关系映射?或者我是否必须进行后期处理?

编辑:一个作业以json格式抓取“文章”。文章可以在不同的位置具有多个附件(在json中的附件数组中声明)。第二个作业抓取实际附件(例如pdf ...),对其应用TIKA处理。最后,我想有一个文章类型,其中还包含附件的内容。

1 个答案:

答案 0 :(得分:1)

如果您将两个文档都加载到不同的ES索引中,则可以使用LS输入来查找尚未包含附件内容的文章。对于这些文档,您可以查询其他elasticsearch索引(请参阅LS中的elasticsearch {}过滤器)并更新文章文档。