卡夫卡在哪些情况下开始“拥挤”?

时间:2016-11-17 09:39:25

标签: apache-kafka distributed-computing

背景

我在这里按照本教程制作分布式环境的第一步:http://docs.spring.io/spring-cloud-dataflow-server-kubernetes/docs/current-SNAPSHOT/reference/htmlsingle/#_getting_started

我想要实现的是一个分布式作业队列来运行旧版shell和c ++应用程序。应根据负载将作业分配到多个服务器。

我所做的意图是分割单个作业的数据,并不是可行的(并且在任何情况下都是性能差的,对于这是什么)并行处理它们。

所以,如果你愿意的话,我打算滥用大数据机器来完成这项任务。

问题

鉴于上述背景,在哪种情况下Kafka消息总线会开始拥塞?

让我们说,当我有4台服务器来处理作业队列并将许多文件(每个数十或数百MB)放入队列时会发生什么。例如,Kafka会将这些消息传递给某些节点,还是所有节点都会收到相同的消息?在后一种情况下,我猜我的群集只能扩展到Kafka可以处理的程度。 在这种情况下,拥塞的其他原因怎么样?

很可能卡夫卡不是我正在尝试做的事情的正确选择。但这也是我问的原因。

1 个答案:

答案 0 :(得分:1)

Kafka不是文件服务器。默认的最大邮件大小(max.message.bytes)为1000012字节。不要将Kafka用作文件服务器,它不会让你开心。

可能的模式:使用长期存储解决方案(SAN,S3等)并使用Kafka将URI传递到该存储