Question

对于在YARN（yarn-client）上运行的Spark作业，是否可以使用位于HDFS中的jar指定类路径

有点像使用Map Reduce作业：

DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)

Answer 1

来自SparkContext文档：

def addJar （路径：字符串）：   单元

为所有任务添加JAR依赖项   将来在这个SparkContext上执行。通过的路径可以是   本地文件，HDFS中的文件（或其他支持Hadoop的文件）   文件系统），HTTP，HTTPS或FTP URI，或文件的本地：/路径   每个工人节点。

所以我认为只需在sparkContext初始化中添加它就足够了：

sc.addJar("hdfs://your/path/to/whatever.jar")

如果您只想添加一个文件，则有一个相关的addFile()方法。

有关详情，请参阅docs。

HDFS中的Spark类路径

1 个答案: