Question

我在使用SparkSQL的4个节点的集群上使用Elastisearch。我正在尝试使用saveToEs将表格从Hive-metastore复制到Elasticseach。如果我使用大小约为13Gb的表格，那么一切都很好，但如果我想用60Gb或更多的东西索引一个巨大的表格就会出错。

问题是许多执行者应该在唯一的文件夹/ var / lib / elastisearch上写一些东西会出错。集群的每个节点都有10个硬盘，所以为了提高并行性，我在path.data中添加了更多的文件夹，每个磁盘一个，所以最后我有了

path.data=/data1/elasticsearch,.......,/data10/elasticsearch

我重新启动Elastic，一切都很好。我用

检查了新配置

curl  http://namenode:9200/_nodes/settings?pretty

问题在于：

所以用第二个配置我可以索引庞大的表（因为进程没有崩溃），但是Elastic非常慢，默认配置Elastic非常快，但是我的索引表不能大于15Gb。有配置吗？

我在我的集群上使用Elasticsearch 2.3.2和Maven dependecy elasticsearch-hadoop：2.3.2为Spark编写scala驱动程序。

由于