Spark shuffle目录的大小不断增长

时间:2016-02-17 06:36:07

标签: apache-spark spark-streaming

shuffle文件和数据文件存储在工作程序的块管理器文件夹中多长时间? (火花a0ab5241-1b5e-4c73-93ed-f37bbc479591)

我有一个火花流工作,窗口持续时间为2小时,滑动间隔为15分钟。

当我在块管理器路径中执行以下命令时

find . -type f -cmin +150 -name "shuffle*" -exec ls {} \; //command to find the shuffle files older than 2 hours 

我看到很多文件意味着它们没有被清除,我期待它们应该被清除。甚至还有昨天的文件。

随后,此大小不断增加并占用磁盘空间。

请建议如何摆脱这种情况并帮助理解这种行为。

0 个答案:

没有答案