我正在使用Kafka 0.9和Spark 1.6。 Spark Streaming应用程序通过直接流API(版本2.10-1.6.0)从Kafka传输消息。
我有3名工人,每人8 GB。每分钟我都会收到4000条消息给Kafka,并且每个工作人员都会传输600条消息。我总是看到Kafka偏移到Spark偏移的滞后。
我有5个Kafka分区。
有没有办法为Kafka的每次拉动使Spark流更多的消息?
我的流媒体频率为2秒
应用中的火花配置
"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",
答案 0 :(得分:0)
请您解释一下吗?你检查哪段代码执行时间更长?来自cloudera manager->纱 - >申请 - >选择你的申请 - >应用程序主 - >流式传输,然后选择一个批次并单击。尝试找出执行时间较长的任务。你使用了多少执行者?对于5个分区,最好有5个执行程序。
您可以发布转换逻辑,可以通过某种方式进行调整。
由于