我已经有一个带有Yarn的集群,配置为在core-site.xml中使用自定义Hadoop文件系统:
<property>
<name>fs.custom.impl</name>
<value>package.of.custom.class.CustomFileSystem</value>
</property>
我想在这个Yarn集群上运行一个Spark Job,它从这个CustomFilesystem读取一个输入RDD:
final JavaPairRDD<String, String> files =
sparkContext.wholeTextFiles("custom://path/to/directory");
有没有办法在不重新配置Spark的情况下做到这一点?即我可以将Spark指向现有的core-site.xml,那么最好的方法是什么?
答案 0 :(得分:1)
将HADOOP_CONF_DIR
设置为包含core-site.xml
的目录。 (这在Running Spark on YARN中有记录。)
您仍需要确保package.of.custom.class.CustomFileSystem
在类路径上。