我在hive中创建了一个外部表,需要将数据移动到ES(2个节点,每个节点1 TB)中。在常规查询下,需要花费很长时间(超过6个小时)的数据表才具有9GB的数据。
INSERT INTO TABLE <ES_DB>.<EXTERNAL_TABLE_FOR_ES>
SELECT COL1, COL2, COL3..., COL10
FROM <HIVE_DB>.<HIVE_TABLE>;
ES索引具有默认的5个分片和1个副本。增加分片数量可以加快摄取速度吗? 有人可以建议采取任何改进措施来加快ES节点的接收速度。
答案 0 :(得分:0)
您没有提到将数据馈入ES所使用的方法,因此很难确定您是在使用摄取管道还是采用了什么技术来弥合差距。鉴于此,我将坚持使用generic advice on how to optimize ingestion into Elasticsearch。
Elastic发布了一些优化摄入系统的指南,我们发现有三点确实有所不同:
最后,您是否安装了Kibana并监视了您的节点以了解它们的限制?特别是CPU还是内存?