我正在使用与流媒体kafka集成的流媒体。
我的kafka主题有80个分区,而我的机器有40个核心。我发现当作业运行时,kafka消费者进程只部署到2台机器(40 * 2 = 80),2台机器的带宽将非常高。
我想知道有没有办法控制kafka消费者的调度,以平衡带宽和内存使用量?
答案 0 :(得分:0)
您可以使用Spark-Packages中的此使用者。
http://spark-packages.org/package/dibbhatt/kafka-spark-consumer
此消费者已在许多生产部署中成功运行,这是最可靠的基于Receiver的低级别消费者。
这样可以更好地控制偏移提交和接收器容错。这也可以控制您可以为主题配置多少接收器,这将决定并行性。
Dibyendu