spark thrift服务器不会清理shuffle文件

时间:2017-11-09 13:20:35

标签: apache-spark yarn shuffle amazon-emr spark-thriftserver

我们正在使用Spark Thrift Server对Spark EMR集群运行SQL查询,我们看到当SQL查询(转换为Spark作业)完成时,位于/mnt/yarn/usercache/root/appcache下的它的随机文件不会被清除。这会在运行多个查询后最终导致No space left on device

如果我们停止Spark Thrift Server,则会清除随机播放文件。 是否有任何方法可以在应用程序停止后但在每次作业运行后进行清理运行? 我们尝试设置以下参数

yarn.nodemanager.localizer.cache.cleanup.interval-ms=6000
yarn.nodemanager.localizer.cache.target-size-mb=1000

但文件仍未清除。 知道它为什么会发生,我们怎么能避免呢?

0 个答案:

没有答案