Elasticsearch并行滚动读取重建索引

时间:2014-11-11 14:50:48

标签: elasticsearch parallel-processing apache-storm

尝试通过Storm将索引完全处理为另一个索引(在中间执行ETL)。

我打开几个并行滚动,每个滚动使用查询约束来定位源索引的子集。无法真正利用路由 - 源索引在随机密钥上具有路由,此应用程序的要点部分是为了更改完整索引的物理配置。这是一种有效的方法吗?

工作人员实际上创建了互斥查询,这些查询共同覆盖了整个索引。通过并行读取,执行转换然后批量写入目标,我的目标是最大吞吐量,但我非常感谢任何见解或建议。我没有开始使用Storm - 但我确实需要一个并行框架来对数据执行任意转换。

据我所知,我不相信这是ES插件可以/应该做的事情。河流实施听起来更合理,但我很困惑为什么ES-to-ES河还没有存在 - 这不是一种合理的方法吗?非常感谢。

0 个答案:

没有答案