使用HDFS中的文件到Apache Spark

时间:2016-06-25 23:46:02

标签: ubuntu hadoop apache-spark hdfs

我的hdfs中有很少的文件,我想在Spark中使用它们。当我提供以下命令时,我能够看到我的文件:

bin/hadoop dfs -ls /input

如何在spark中创建此文件的路径以创建RDD:

val input=sc.textFile("???")

1 个答案:

答案 0 :(得分:0)

如果你的Spark安装配置正确,那么普通的HDFS路径也应该在Spark中逐字不变地工作:

val input = sc.textFile("/input")

如果这不起作用,那么您可能需要确保您的Spark配置为properly picking up your Hadoop conf dir

您可能还想尝试直接检查Spark代码中的文件列表,以确保正确导入配置:

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)