如何在集群模式下的Spark-SQL流中指定本地目录路径

时间:2019-12-13 10:21:59

标签: apache-spark yarn

我使用Apache Spark-sql_2.4.1和kafka数据源。 当我以“ 集群”模式启动我的Spark作业时。这仅在群集模式下发生,在“客户端”模式下工作正常。

Spark作业在 / tmp / hadoop-admin / nm-local-dir / usercache // ......下创建多个文件 如下

SLF4J: Found binding in [jar:file:/tmp/hadoop-admin/nm-local-dir/usercache/user/filecache/320/__spark_libs__7815957460819119683.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/local/apps/admin/grid/pkg/hadoop-2.9.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]


  org.apache.spark.storage.DiskBlockManager - Created local directory at /tmp/hadoop-admin/nm-local-dir/usercache/user/application_1575703651487_3379/...

为什么在/ tmp /目录下创建文件? 如何将其设置为指定的文件夹而不是/ tmp /?

我尝试设置“ spark.local.dir ”,但

.config("spark.local.dir", "hdfs://dev1/user/chkpt/local/")

但是它仍然指向相同的/ tmp /目录。 如何解决这个问题?

0 个答案:

没有答案