Spark清理工作没有运行

时间:2016-06-03 09:09:04

标签: apache-spark datastax

每当我执行import urllib params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params) print f.read() 时,它会复制dse spark-submit <jarname>中的jar(在我的情况下为/ var / lib / spark-worker / worker-0)。我想在火花作业成功完成/运行后自动删除jar。使用this,我更改了SPARK_WORKER_DIR中的SPARK_WORKER_OPTS,如下所示:

spark-env.sh

但是jar仍然没有被删除。难道我做错了什么?我该怎么办?

1 个答案:

答案 0 :(得分:1)

将此行添加到spark-env.sh并重新启动dse服务对我有用:

export SPARK_WORKER_OPTS="$SPARK_WORKER_OPTS -Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=3600 -Dspark.worker.cleanup.appDataTtl=172800 "

我通过

重新启动了dse服务
nodetool drain
sudo service dse restart

这将在作业完成后2天删除日志。