使用自定义Hadoop FileSystem的Spark

时间:2015-04-09 21:14:45

标签: hadoop apache-spark yarn

我已经有一个带有Yarn的集群,配置为在core-site.xml中使用自定义Hadoop文件系统:

<property>
    <name>fs.custom.impl</name>
    <value>package.of.custom.class.CustomFileSystem</value>
</property>

我想在这个Yarn集群上运行一个Spark Job,它从这个CustomFilesystem读取一个输入RDD:

final JavaPairRDD<String, String> files = 
        sparkContext.wholeTextFiles("custom://path/to/directory");

有没有办法在不重新配置Spark的情况下做到这一点?即我可以将Spark指向现有的core-site.xml,那么最好的方法是什么?

1 个答案:

答案 0 :(得分:1)

HADOOP_CONF_DIR设置为包含core-site.xml的目录。 (这在Running Spark on YARN中有记录。)

您仍需要确保package.of.custom.class.CustomFileSystem在类路径上。