在Scala中递归读取文件

时间:2019-12-06 06:07:33

标签: scala apache-spark pyspark

我正在尝试将嵌套在许多文件夹中的一组XML文件读入spark的序列文件中。我可以使用来自How do I list all files in a subdirectory in scala?的recursiveListFiles函数读取文件名。

import java.io.File
def recursiveListFiles(f: File): Array[File] = {
 val these = f.listFiles
 these ++ these.filter(_.isDirectory).flatMap(recursiveListFiles)
}

但是如何在此处将文件内容读取为单独的列?

1 个答案:

答案 0 :(得分:0)

如何使用sparks WholeTextFiles方法?然后自己解析XML?