在必须升级Spark库或更改查询的情况下,我可以在HDFS上安全地使用Kafka和Spark结构化流(SSS)(> = v2.2)吗?即使在这种情况下,我也想无缝地继续使用剩余的偏移量。
在网络上搜索SSS(> = 2.2)检查点机制中的兼容性问题时,我找到了不同的答案。也许有人可以减轻这种情况...在最好的情况下,以事实/参考或第一人称的经验作为后盾?
我们非常感谢您的帮助。
答案 0 :(得分:1)
当您不需要更改代码,解雇和忘记过程是完美的用例时,检查点非常有用。
我从您发布的Databricks中阅读了该帖子,事实是,您必须要做这些,才能知道需要进行哪种更改。我想知道他们如何预测未来。
关于Cloudera上的链接,是的,他们是在谈论旧过程,但是使用结构化流仍然可以更改代码,使检查点无效。
因此,我认为,对于Fire and Forget程序而言,太多的自动化是有益的。 如果不是这种情况,则将Kafka偏移量保存在其他位置是从上次离开的位置重新开始的好方法;您知道,Kafka可以包含大量数据并从零开始重新启动以避免数据丢失,或者接受从最新偏移量重新启动的想法有时并不总是可以接受的。
请记住:只要有检查点,任何流逻辑更改都将被忽略,因此,除非您接受放弃检查点的想法,否则部署后就无法对工作进行更改。 通过丢弃检查点,您必须强制作业重新处理整个Kafka主题(最早),或者从最后开始(最新)开始,跳过未处理的数据。
太好了,不是吗?