如何创建一个RDD,将整个文件内容作为值?

时间:2015-12-25 05:16:31

标签: apache-spark

我有一个包含许多文件的目录,我想创建一个RDD,其值是每个文件的内容。我怎么能这样做?

1 个答案:

答案 0 :(得分:1)

您可以使用SparkContext.wholeTextFiles方法读取:

  

来自HDFS的文本文件目录,本地文件系统(在所有节点上都可用)或任何支持Hadoop的文件系统URI。每个文件都作为单个记录读取,并以键值对的形式返回,其中键是每个文件的路径,值是每个文件的内容。

请记住,单个文件必须适合工作程序内存,一般来说它的效率低于使用textFile