我首先生成一些消息,这些消息由kafka的代理保存在磁盘上。然后我启动火花流程序来处理这些数据,但我无法接收任何火花流。并且没有任何错误日志。
但是,如果我在火花流程序运行时产生消息,它就可以接收数据。
火花流可以只接收来自kafka的实时数据吗?
答案 0 :(得分:0)
要控制在新的使用者流开始时消耗的数据的行为,您应该提供auto.offset.reset
作为用于创建kafka流的属性的一部分。
auto.offset.reset
可以采用以下值:
另请注意,根据您使用的kafka消费者模型(基于接收或直接),重新启动的Spark流式传输作业的行为将有所不同。