Question

我在hive中创建了一个外部表，需要将数据移动到ES（2个节点，每个节点1 TB）中。在常规查询下，需要花费很长时间（超过6个小时）的数据表才具有9GB的数据。

INSERT INTO TABLE <ES_DB>.<EXTERNAL_TABLE_FOR_ES> 
SELECT COL1, COL2, COL3..., COL10 
  FROM <HIVE_DB>.<HIVE_TABLE>;

ES索引具有默认的5个分片和1个副本。增加分片数量可以加快摄取速度吗？有人可以建议采取任何改进措施来加快ES节点的接收速度。

Answer 1

您没有提到将数据馈入ES所使用的方法，因此很难确定您是在使用摄取管道还是采用了什么技术来弥合差距。鉴于此，我将坚持使用generic advice on how to optimize ingestion into Elasticsearch。

Elastic发布了一些优化摄入系统的指南，我们发现有三点确实有所不同：

最后，您是否安装了Kibana并监视了您的节点以了解它们的限制？特别是CPU还是内存？