HDFS中的Spark类路径

时间:2016-01-15 12:51:40

标签: hadoop apache-spark hdfs yarn

对于在YARN(yarn-client)上运行的Spark作业,是否可以使用位于HDFS中的jar指定类路径

有点像使用Map Reduce作业:

DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)

1 个答案:

答案 0 :(得分:1)

来自SparkContext文档:

  

def addJar (路径:字符串):   单元

     

为所有任务添加JAR依赖项   将来在这个SparkContext上执行。通过的路径可以是   本地文件,HDFS中的文件(或其他支持Hadoop的文件)   文件系统),HTTP,HTTPS或FTP URI,或文件的本地:/路径   每个工人节点。

所以我认为只需在sparkContext初始化中添加它就足够了:

sc.addJar("hdfs://your/path/to/whatever.jar")

如果您只想添加一个文件,则有一个相关的addFile()方法。

有关详情,请参阅docs