我正在尝试将嵌套在许多文件夹中的一组XML文件读入spark的序列文件中。我可以使用来自How do I list all files in a subdirectory in scala?的recursiveListFiles函数读取文件名。
import java.io.File
def recursiveListFiles(f: File): Array[File] = {
val these = f.listFiles
these ++ these.filter(_.isDirectory).flatMap(recursiveListFiles)
}
但是如何在此处将文件内容读取为单独的列?
答案 0 :(得分:0)
如何使用sparks WholeTextFiles方法?然后自己解析XML?