apache-flink - Apache flink如何在节点之间分配数据？

我不认为你所要求的事情有一个确切的答案。我会尽力向自己解释，但我不是该领域的专家。

1）对于少量数据，开销有多大，为什么在大量数据的情况下无关紧要？

开销在大量数据中无关紧要，因为单个节点无法处理所有数据，如果节点无法处理所有数据，则有两件事情可能发生：

因此，如果您有多个节点处理所有传入数据，您可以在数据到达时立即处理，数据不等待节点处理它。这就是为什么开销微不足道。

2）我想知道有关大小数据的数据分布的更多细节，并表征性能。

数据的分发很难解释，因为它取决于你在做什么以及系统的配置。阅读以下文档：

您配置系统的方式和设计工作的方法将影响数据的分区和分布方式。