Question

我已经有一个带有Yarn的集群，配置为在core-site.xml中使用自定义Hadoop文件系统：

<property>
    <name>fs.custom.impl</name>
    <value>package.of.custom.class.CustomFileSystem</value>
</property>

我想在这个Yarn集群上运行一个Spark Job，它从这个CustomFilesystem读取一个输入RDD：

final JavaPairRDD<String, String> files = 
        sparkContext.wholeTextFiles("custom://path/to/directory");

有没有办法在不重新配置Spark的情况下做到这一点？即我可以将Spark指向现有的core-site.xml，那么最好的方法是什么？

Answer 1

将HADOOP_CONF_DIR设置为包含core-site.xml的目录。（这在Running Spark on YARN中有记录。）

您仍需要确保package.of.custom.class.CustomFileSystem在类路径上。