Spark 结构化流文件处理非常慢,当启用干净源存档

时间:2021-07-28 16:41:27

标签: apache-spark bigdata spark-structured-streaming

我有一个 Spark 结构化流作业,其中源是 S3,接收器是 S3。

当我禁用 cleanSource 时,对于 500 万条记录,吞吐量为 3500 记录/秒。

对于相同的管道,如果我启用 cleanSource 进行存档并提供 archiveDirectory,则吞吐量会降低到 200 rec/秒。

当我浏览 spark 源代码时,我发现 spark 存档部分是由守护线程处理的,理想情况下,在这种情况下,spark 主处理线程不会过载。

是否有任何原因,为什么会出现这种开销?

谢谢。

0 个答案:

没有答案