标签: apache-flink amazon-emr
我有一个在EMR上与Flink一起运行的批处理作业,该作业丰富了一些在AWS S3上存储为CSV的数据,并使用Elasticsearch索引了元组。
由于某些原因,其中一台主机的工作量比其他主机多得多。我试图通过在元组的几个字段上进行散列分区来解决此问题,但这没有任何区别:一个节点仍然比其他节点得到更多的收益。请参见下面的屏幕快照中的主机40705。
我需要在各个节点之间分配索引,并尽可能优化吞吐量。
我尝试使用 rebalance(),但结果是相同的。有任何线索吗?
编辑
概述屏幕