如果事先向kafka发送一些消息,火花流无法从kafka接收数据

时间:2016-04-19 14:57:57

标签: apache-kafka spark-streaming

我首先生成一些消息,这些消息由kafka的代理保存在磁盘上。然后我启动火花流程序来处理这些数据,但我无法接收任何火花流。并且没有任何错误日志。

但是,如果我在火花流程序运行时产生消息,它就可以接收数据。

火花流可以只接收来自kafka的实时数据吗?

1 个答案:

答案 0 :(得分:0)

要控制在新的使用者流开始时消耗的数据的行为,您应该提供auto.offset.reset作为用于创建kafka流的属性的一部分。

auto.offset.reset可以采用以下值:

  • 最早=> kafka主题将从最早的可用偏移量中消耗
  • latest =>将从当前最新的偏移量
  • 开始消耗kafka主题

另请注意,根据您使用的kafka消费者模型(基于接收或直接),重新启动的Spark流式传输作业的行为将有所不同。