我在使用SparkSQL的4个节点的集群上使用Elastisearch。我正在尝试使用saveToEs将表格从Hive-metastore复制到Elasticseach。 如果我使用大小约为13Gb的表格,那么一切都很好,但如果我想用60Gb或更多的东西索引一个巨大的表格就会出错。
问题是许多执行者应该在唯一的文件夹/ var / lib / elastisearch上写一些东西会出错。集群的每个节点都有10个硬盘,所以为了提高并行性,我在path.data中添加了更多的文件夹,每个磁盘一个,所以最后我有了
path.data=/data1/elasticsearch,.......,/data10/elasticsearch
我重新启动Elastic,一切都很好。我用
检查了新配置curl http://namenode:9200/_nodes/settings?pretty
问题在于:
所以用第二个配置我可以索引庞大的表(因为进程没有崩溃),但是Elastic非常慢,默认配置Elastic非常快,但是我的索引表不能大于15Gb。有配置吗?
我在我的集群上使用Elasticsearch 2.3.2和Maven dependecy elasticsearch-hadoop:2.3.2为Spark编写scala驱动程序。
由于