应用错误收集

我有一个在EMR上与Flink一起运行的批处理作业，该作业丰富了一些在AWS S3上存储为CSV的数据，并使用Elasticsearch索引了元组。

由于某些原因，其中一台主机的工作量比其他主机多得多。我试图通过在元组的几个字段上进行散列分区来解决此问题，但这没有任何区别：一个节点仍然比其他节点得到更多的收益。请参见下面的屏幕快照中的主机40705。

我需要在各个节点之间分配索引，并尽可能优化吞吐量。

我尝试使用 rebalance（），但结果是相同的。有任何线索吗？

编辑

概述屏幕