迫使火花流的卡夫卡消费者流程进入不同的机器

时间:2015-05-13 15:35:12

标签: apache-spark spark-streaming

我正在使用与流媒体kafka集成的流媒体。

我的kafka主题有80个分区,而我的机器有40个核心。我发现当作业运行时,kafka消费者进程只部署到2台机器(40 * 2 = 80),2台机器的带宽将非常高。

我想知道有没有办法控制kafka消费者的调度,以平衡带宽和内存使用量?

1 个答案:

答案 0 :(得分:0)

您可以使用Spark-Packages中的此使用者。

http://spark-packages.org/package/dibbhatt/kafka-spark-consumer

此消费者已在许多生产部署中成功运行,这是最可靠的基于Receiver的低级别消费者。

这样可以更好地控制偏移提交和接收器容错。这也可以控制您可以为主题配置多少接收器,这将决定并行性。

Dibyendu