Spark kafka Streaming拉出更多消息

时间:2018-01-16 19:37:09

标签: apache-spark apache-kafka spark-streaming

我正在使用Kafka 0.9和Spark 1.6。 Spark Streaming应用程序通过直接流API(版本2.10-1.6.0)从Kafka传输消息。

我有3名工人,每人8 GB。每分钟我都会收到4000条消息给Kafka,并且每个工作人员都会传输600条消息。我总是看到Kafka偏移到Spark偏移的滞后。

我有5个Kafka分区。

有没有办法为Kafka的每次拉动使Spark流更多的消息?

我的流媒体频率为2秒

应用中的火花配置

"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",

1 个答案:

答案 0 :(得分:0)

请您解释一下吗?你检查哪段代码执行时间更长?来自cloudera manager->纱 - >申请 - >选择你的申请 - >应用程序主 - >流式传输,然后选择一个批次并单击。尝试找出执行时间较长的任务。你使用了多少执行者?对于5个分区,最好有5个执行程序。

您可以发布转换逻辑,可以通过某种方式进行调整。

由于