Elasticsearch拯救ES-HADOOP PLUGIN

时间:2018-02-24 09:34:41

标签: hadoop apache-spark elasticsearch elasticsearch-hadoop

我们正在使用ES-HADOOP插件将数据从Hadoop HBASE表推送到Elasticsearch集群。以下是群集详细信息。

  • elasticsearch version:2.3.5
  • 数据节点:3
  • 主节点:3
  • 客户端节点:1

数据节点也是主节点。

  • 数据/主节点堆:20GB
  • 客户端节点堆:3GB
  • 每个指数的主要碎片数量:5
  • 每个索引的副本碎片数:1

当我们在Spark上执行作业时,在我们开始获取ElasticSearch Bailing Out一段时间之后我们将数据从Hadoop推送到Elasticsearch的阶段。

我们怀疑Elasticsearch可以为Bulk API处理的并发连接数量已超过Spark Executors,因为Elasticsearch开始拒绝写入请求后发布最大连接数。

我们如何确定ElasticSearch Client节点可以处理多少并发批量API连接并成功写入数据?每个BULK API REQUEST应该是最大文档数量?

我们应该考虑哪些参数来优化ElasticSearch集群以进行写操作,我们需要在一小时内索引80-90 GB数据?

0 个答案:

没有答案