如何在Spark中将整个文件夹的文件读入一个RDD映射中?

时间:2019-06-04 07:43:59

标签: apache-spark

我使用binaryFiles从HDFS读取文件,但是一张地图只有一个文件。

sparkContext.binaryFiles("hdfs://name/a/b/id-*.zzz").map(x=>{})

在地图阶段,我只能处理一个文件。我可以在一张地图中设置两个或多个文件,然后并行处理吗?

1 个答案:

答案 0 :(得分:0)

def wholeTextFiles(
  path: String,
  minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope

返回配对的RDD,其中key是File,值是Content