Elasticsearch失去了在SparkSQL上运行的性能改变path.data

时间:2016-06-29 15:54:04

标签: hadoop elasticsearch apache-spark path

我在使用SparkSQL的4个节点的集群上使用Elastisearch。我正在尝试使用saveToEs将表格从Hive-metastore复制到Elasticseach。 如果我使用大小约为13Gb的表格,那么一切都很好,但如果我想用60Gb或更多的东西索引一个巨大的表格就会出错。

问题是许多执行者应该在唯一的文件夹/ var / lib / elastisearch上写一些东西会出错。集群的每个节点都有10个硬盘,所以为了提高并行性,我在path.data中添加了更多的文件夹,每个磁盘一个,所以最后我有了

path.data=/data1/elasticsearch,.......,/data10/elasticsearch  

我重新启动Elastic,一切都很好。我用

检查了新配置
curl  http://namenode:9200/_nodes/settings?pretty

问题在于:

  • 默认路径数据,索引速度为每分钟1Gb
  • 新配置速度为每2 / 2.5分钟1Gb。

所以用第二个配置我可以索引庞大的表(因为进程没有崩溃),但是Elastic非常慢,默认配置Elastic非常快,但是我的索引表不能大于15Gb。有配置吗?

我在我的集​​群上使用Elasticsearch 2.3.2和Maven dependecy elasticsearch-hadoop:2.3.2为Spark编写scala驱动程序。

由于

0 个答案:

没有答案