apache-spark - Spark 结构化流文件处理非常慢，当启用干净源存档 - Thinbug

Spark 结构化流文件处理非常慢，当启用干净源存档

时间：2021-07-28 16:41:27

标签： apache-spark bigdata spark-structured-streaming

我有一个 Spark 结构化流作业，其中源是 S3，接收器是 S3。

当我禁用 cleanSource 时，对于 500 万条记录，吞吐量为 3500 记录/秒。

对于相同的管道，如果我启用 cleanSource 进行存档并提供 archiveDirectory，则吞吐量会降低到 200 rec/秒。

当我浏览 spark 源代码时，我发现 spark 存档部分是由守护线程处理的，理想情况下，在这种情况下，spark 主处理线程不会过载。

是否有任何原因，为什么会出现这种开销？

谢谢。

0 个答案:

没有答案