尽管使用Apache Flink进行了分区,但是元组的分配不平衡

时间:2018-12-17 14:55:27

标签: apache-flink amazon-emr

我有一个在EMR上与Flink一起运行的批处理作业,该作业丰富了一些在AWS S3上存储为CSV的数据,并使用Elasticsearch索引了元组。

由于某些原因,其中一台主机的工作量比其他主机多得多。我试图通过在元组的几个字段上进行散列分区来解决此问题,但这没有任何区别:一个节点仍然比其他节点得到更多的收益。请参见下面的屏幕快照中的主机40705。

我需要在各个节点之间分配索引,并尽可能优化吞吐量。

我尝试使用 rebalance(),但结果是相同的。有任何线索吗?

enter image description here

编辑

概述屏幕

enter image description here

0 个答案:

没有答案