Spark结构化流是否完全损坏(火花元数据问题)

时间:2020-06-17 05:30:16

标签: apache-spark spark-streaming

我编写了一个简单的Spark结构化蒸汽应用程序,用于将数据从Kafka迁移到S3。发现为了支持一次保证,spark创建了_spark_metadata文件夹,由于流应用程序需要永久运行,该文件夹最终变得太大。但 当流媒体应用程序长时间运行时,元数据文件夹变得如此之大,以至于我们开始收到OOM错误。解决OOM的唯一方法是删除Checkpoint和Metadata文件夹,并释放有价值的客户数据。

火花打开JIRAs SPARK-24295和SPARK-29995,SPARK-30462和SPARK-24295)

由于Spark Streaming并未像这样中断。 Spark Streaming是更好的选择吗?

0 个答案:

没有答案