Elasticsearch hadoop配置批量批量大小

时间:2016-11-09 03:18:14

标签: elasticsearch elasticsearch-hadoop elasticsearch-spark

我读了可能的Stackoverflow,es-hadoop / es-spark项目使用批量索引。如果是,则默认的batchsize是按照BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

我在代码中使用JavaEsSparkSQL.saveToEs(dataset,index),我想了解可用于调整性​​能的可用配置。这是否也与数据集的分区有关。

1 个答案:

答案 0 :(得分:0)

在配置页面上找到设置

es.batch.size.bytes (default 1mb)

使用Elasticsearch批量API进行批量写入的大小(以字节为单位)。请注意,每个任务实例都会分配批量大小。始终乘以Hadoop作业中的任务数,以获得运行时命中Elasticsearch的总体积大小。

es.batch.size.entries (default 1000)

使用Elasticsearch批量API进行批量写入的大小(在条目中) - (0禁用它)。伴随es.batch.size.bytes,一旦匹配,就会执行批量更新。与大小类似,此设置是每个任务实例;它在运行时乘以运行的Hadoop任务总数。