Question

我正在使用pyspark流来处理一个非常大的流日志，并且由于日志非常庞大，如果应用程序因任何原因失败，我不希望火花处理旧日志。

我可以删除检查点目录并得到我想要的内容，但我想知道是否有任何方法可以通过编程方式进行。

我已经尝试了KafkaUtils.createStream(..., karkaParams={'auto.offset.reset': 'largest'})但没有成功。

有什么建议吗？

Answer 1

你应该使用

auto.offset.reset': 'smallest'

如果您想在应用程序启动时跳过队列中的旧消息以获取您的使用者组名称。

同样为了将来参考，如果任何人想要在应用程序启动时在主题中的每个可用消息，您应该每次使用不同的消费者组名称并将“最大”作为偏移量传递。