以下是我用来从Kafka读取数据的代码使用Spark Structured Streaming,
//ss:SparkSession is defined before.
import ss.implicits._
val df = ss
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", kafka_server)
.option("subscribe", topic_input)
.option("startingOffsets", "latest")
.option("kafkaConsumer.pollTimeoutMs", "5000")
.option("failOnDataLoss", "false")
.load()
这是错误代码,
Caused by: java.util.concurrent.TimeoutException: Cannot fetch record xxxx for offset in 5000 milliseconds
如果我将5000放大到10000,则仍会出现此错误。 我谷歌谷歌这个qquestion。似乎没有太多关于这个问题的相关信息。
以下是与此问题相关的sbt文件的一部分。
libraryDependencies += "org.apache.spark" %% "spark-sql-kafka-0-10" % "2.3.0" exclude ("org.apache.kafka", "kafka-clients")
libraryDependencies += "org.apache.kafka" % "kafka-clients" % "0.11.0.0"
答案 0 :(得分:3)
我也遇到了这个错误。
我查看了KafkaSourceRDD的源代码,什么都没有。
我猜kafka连接器有问题,因此我在" spark-sql-kafka-0-10_2.11"中排除了kafka-client。包,并添加一个新的依赖项,如下所示:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>2.3.0</version>
<scope>compile</scope>
<exclusions>
<exclusion>
<artifactId>kafka-clients</artifactId>
<groupId>org.apache.kafka</groupId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.10.2.1</version>
</dependency>
现在它有效。希望它有所帮助。
我创建了一个jira问题来报告此问题: https://issues.apache.org/jira/browse/SPARK-23829
2014年12月17日更新:Spark 2.4和Kafka2.0解决了这个问题。