标签: apache-spark
我有一个包含许多文件的目录,我想创建一个RDD,其值是每个文件的内容。我怎么能这样做?
答案 0 :(得分:1)
您可以使用SparkContext.wholeTextFiles方法读取:
来自HDFS的文本文件目录,本地文件系统(在所有节点上都可用)或任何支持Hadoop的文件系统URI。每个文件都作为单个记录读取,并以键值对的形式返回,其中键是每个文件的路径,值是每个文件的内容。
请记住,单个文件必须适合工作程序内存,一般来说它的效率低于使用textFile。
textFile