我读了可能的Stackoverflow,es-hadoop / es-spark项目使用批量索引。如果是,则默认的batchsize是按照BulkProcessor(5Mb)。是否有任何配置可以改变这一点。
我在代码中使用JavaEsSparkSQL.saveToEs(dataset,index)
,我想了解可用于调整性能的可用配置。这是否也与数据集的分区有关。
答案 0 :(得分:0)
在配置页面上找到设置
es.batch.size.bytes (default 1mb)
使用Elasticsearch批量API进行批量写入的大小(以字节为单位)。请注意,每个任务实例都会分配批量大小。始终乘以Hadoop作业中的任务数,以获得运行时命中Elasticsearch的总体积大小。
es.batch.size.entries (default 1000)
使用Elasticsearch批量API进行批量写入的大小(在条目中) - (0禁用它)。伴随es.batch.size.bytes,一旦匹配,就会执行批量更新。与大小类似,此设置是每个任务实例;它在运行时乘以运行的Hadoop任务总数。