我阅读了以下教程: http://druid.io/docs/latest/tutorials/tutorial-loading-batch-data.html 并使用index_task将数据放入德鲁伊。 我还发布了时间边界查询,一切正常。
然而,当我试图插入大量数据(约2 000 000条记录)时,需要花费太多时间。
是否可以提高index_task的性能以及如何实现?
是否可以通过:
分段粒度的变化?
用HadoopDruidIndexer替换index_task?
将数据拆分为较小的部分并同时插入?
每个节点增加节点数或内存数?
其他什么?
请帮忙。
答案 0 :(得分:2)
我们遇到了同样的问题,索引任务不是很优化来摄取大量数据。他们在文档中写道:“当数据量超过1G时,它们很慢。”最好使用实时摄取(Tranquility)或Index Hadoop Task。如果您需要批量摄取大量数据,Index Hadoop Task是最佳解决方案。它可以很好地扩展,并且速度更快。
答案 1 :(得分:1)
最近关于德鲁伊的工作对索引任务做了重大改进。 Index Hadoop任务和索引任务都做同样的事情。