Question

我正在使用Kafka 0.9和Spark 1.6。 Spark Streaming应用程序通过直接流API（版本2.10-1.6.0）从Kafka传输消息。

我有3名工人，每人8 GB。每分钟我都会收到4000条消息给Kafka，并且每个工作人员都会传输600条消息。我总是看到Kafka偏移到Spark偏移的滞后。

我有5个Kafka分区。

有没有办法为Kafka的每次拉动使Spark流更多的消息？

我的流媒体频率为2秒

应用中的火花配置

"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",

Answer 1

请您解释一下吗？你检查哪段代码执行时间更长？来自cloudera manager-＆gt;纱 - ＆GT;申请 - ＆gt;选择你的申请 - ＆gt;应用程序主 - ＆gt;流式传输，然后选择一个批次并单击。尝试找出执行时间较长的任务。你使用了多少执行者？对于5个分区，最好有5个执行程序。

您可以发布转换逻辑，可以通过某种方式进行调整。

由于