应用错误收集

我已经尝试使用Flink流媒体一段时间了，使用雅虎流媒体基准测试等基准测试：https://github.com/yahoo/streaming-benchmarks这应该会给系统带来压力，但我从来没有达到令人满意的CPU利用率 - 实际上它是使用所有可用的系统核心（parallelism = nodes * cores）和每个核心一个TaskManager插槽，主要低至约25％。

最近，我开始使用Gelly，Flink的Graph API，使用一些提供的示例算法（例如Pagerank），批量处理数据集，从数万到数亿个顶点不等。

我占用了四个32个核心的TaskManagers，根据文档的建议，我设置了taskmanager.numberOfTaskSlots: 32和parallelism.default: 128。

即使我增加这些值，平均CPU利用率也不会超过40％。因此，由于我的资源没有得到充分利用，我的性能很低。

我还想指出一个事实，在某些情况下，我注意到更低的并行度级别（以及CPU利用率）会有更好的性能。

我错过了什么？

使用Flink和Gelly无法实现高CPU利用率

1 个答案: