标签: scala hadoop elasticsearch apache-spark
想了解Spark执行程序,核心和Elasticsearch批量大小之间的关系,以及如何以最佳方式调整Spark作业以获得更好的索引吞吐量。
我有Parquet格式的3.5B数据,我想将它们摄取到Elasticsearch,而且我的索引率不超过20K。有时我得到了60K-70K,但它立即下降,我得到的平均值是每秒15K-25K指数。
关于我的输入的更多细节:
有关我当前ES设置的详细信息:
我是Elasticsearch的新手,所以不确定如何调整我的Spark工作以获得更好的性能。