Apache Druid批量摄取 - 索引任务的低性能

时间:2016-01-02 12:10:48

标签: performance batch-processing druid

我阅读了以下教程: http://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用index_task将数据放入德鲁伊。 我还发布了时间边界查询,一切正常。

然而,当我试图插入大量数据(约2 000 000条记录)时,需要花费太多时间。

是否可以提高index_task的性能以及如何实现?

是否可以通过:

  • 分段粒度的变化?

  • 用HadoopDruidIndexer替换index_task?

  • 将数据拆分为较小的部分并同时插入?

  • 每个节点增加节点数或内存数?

  • 其他什么?

请帮忙。

2 个答案:

答案 0 :(得分:2)

我们遇到了同样的问题,索引任务不是很优化来摄取大量数据。他们在文档中写道:“当数据量超过1G时,它们很慢。”最好使用实时摄取(Tranquility)或Index Hadoop Task。如果您需要批量摄取大量数据,Index Hadoop Task是最佳解决方案。它可以很好地扩展,并且速度更快。

答案 1 :(得分:1)

最近关于德鲁伊的工作对索引任务做了重大改进。 Index Hadoop任务和索引任务都做同样的事情。