对于在YARN(yarn-client)上运行的Spark作业,是否可以使用位于HDFS中的jar指定类路径
有点像使用Map Reduce作业:
DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)
答案 0 :(得分:1)
来自SparkContext文档:
def addJar (路径:字符串): 单元
为所有任务添加JAR依赖项 将来在这个SparkContext上执行。通过的路径可以是 本地文件,HDFS中的文件(或其他支持Hadoop的文件) 文件系统),HTTP,HTTPS或FTP URI,或文件的本地:/路径 每个工人节点。
所以我认为只需在sparkContext初始化中添加它就足够了:
sc.addJar("hdfs://your/path/to/whatever.jar")
如果您只想添加一个文件,则有一个相关的addFile()
方法。
有关详情,请参阅docs。