apache-flink - 为什么以并行度= 1执行Flink作业会很糟糕？

使用并行度= 1的Flink并不坏，但是它违反了使用Flink的主要目的（能够扩展）。

通常，您不应该拥有比内核更高的并行度（物理或虚拟取决于用例），因为您希望尽可能地使内核饱和。一切都会对您的性能造成负面影响，因为这需要更多的通信开销和上下文切换。通过横向扩展，您可以从网络中的分布式计算节点添加核心，这是使用大数据技术与手动编写应用程序相比的主要好处。

正如您所说，只有在对数据进行分区时才能使用并行性。如果您有一种需要所有数据的算法，则最终需要在一个内核上进行处理。但是，通常在将数据合并到最终核心之前，您可以并行进行大量预处理（过滤，转换）和部分聚合。例如，考虑简单地计算所有事件。您可以对每个分区的数据进行计数，然后在最后一步中简单地对部分计数求和，这几乎可以完美地扩展。

如果您的算法不允许拆分，则您的用例可能不允许分布式处理。在这种情况下，Flink不太适合。但是，值得探索的是替代算法（有时是近似算法）是否也能满足您的用例。这是将单片算法拆分为可并行化的子算法的数据工程技术。

为什么以并行度= 1执行Flink作业会很糟糕？

1 个答案: