Question

我读了可能的Stackoverflow，es-hadoop / es-spark项目使用批量索引。如果是，则默认的batchsize是按照BulkProcessor（5Mb）。是否有任何配置可以改变这一点。

我在代码中使用JavaEsSparkSQL.saveToEs(dataset,index)，我想了解可用于调整性能的可用配置。这是否也与数据集的分区有关。

Answer 1

在配置页面上找到设置

es.batch.size.bytes (default 1mb)

使用Elasticsearch批量API进行批量写入的大小（以字节为单位）。请注意，每个任务实例都会分配批量大小。始终乘以Hadoop作业中的任务数，以获得运行时命中Elasticsearch的总体积大小。

es.batch.size.entries (default 1000)

使用Elasticsearch批量API进行批量写入的大小（在条目中） - （0禁用它）。伴随es.batch.size.bytes，一旦匹配，就会执行批量更新。与大小类似，此设置是每个任务实例;它在运行时乘以运行的Hadoop任务总数。