apache-kafka - 卡夫卡在哪些情况下开始“拥挤”？

背景

我想要实现的是一个分布式作业队列来运行旧版shell和c ++应用程序。应根据负载将作业分配到多个服务器。

我所做的不意图是分割单个作业的数据，并不是可行的（并且在任何情况下都是性能差的，对于这是什么）并行处理它们。

所以，如果你愿意的话，我打算滥用大数据机器来完成这项任务。

问题

鉴于上述背景，在哪种情况下Kafka消息总线会开始拥塞？

让我们说，当我有4台服务器来处理作业队列并将许多文件（每个数十或数百MB）放入队列时会发生什么。例如，Kafka会将这些消息传递给某些节点，还是所有节点都会收到相同的消息？在后一种情况下，我猜我的群集只能扩展到Kafka可以处理的程度。在这种情况下，拥塞的其他原因怎么样？

很可能卡夫卡不是我正在尝试做的事情的正确选择。但这也是我问的原因。