我使用spark的textFile从hdfs中读取文件。
hdfs中的dirs看起来像:
/user/root/kjyw.txt
/user/root/vjwy.txt
/user/root/byeq.txt
/user/root/dira/xxx.txt
当我使用sc.textFile("/user/root/")
作业将失败,因为dir包含sub-dirs
如何让spark只读取目录中的文件?
请不要让我使用sc.textFile(" / user / root / * .txt")因为文件'名称并非都以.txt
结尾答案 0 :(得分:0)
val rdd = sc.wholeTextFiles("/user/root/*/*")
将/ *放在目录级别上。上面将适用于您显示的目录结构。
它会给对RDD。