如何使用spark的textFile()读取包含子目录的目录

时间:2016-01-14 10:42:16

标签: apache-spark

我使用spark的textFile从hdfs中读取文件。

hdfs中的dirs看起来像:

/user/root/kjyw.txt
/user/root/vjwy.txt
/user/root/byeq.txt
/user/root/dira/xxx.txt

当我使用sc.textFile("/user/root/")

作业将失败,因为dir包含sub-dirs

如何让spark只读取目录中的文件?

请不要让我使用sc.textFile(" / user / root / * .txt")因为文件'名称并非都以.txt

结尾

1 个答案:

答案 0 :(得分:0)

 val rdd = sc.wholeTextFiles("/user/root/*/*")

将/ *放在目录级别上。上面将适用于您显示的目录结构。

它会给对RDD。