我有一个 Spark 结构化流作业,其中源是 S3,接收器是 S3。
当我禁用 cleanSource 时,对于 500 万条记录,吞吐量为 3500 记录/秒。
对于相同的管道,如果我启用 cleanSource 进行存档并提供 archiveDirectory,则吞吐量会降低到 200 rec/秒。
当我浏览 spark 源代码时,我发现 spark 存档部分是由守护线程处理的,理想情况下,在这种情况下,spark 主处理线程不会过载。
是否有任何原因,为什么会出现这种开销?
谢谢。