Question

我使用binaryFiles从HDFS读取文件，但是一张地图只有一个文件。

sparkContext.binaryFiles("hdfs://name/a/b/id-*.zzz").map(x=>{})

在地图阶段，我只能处理一个文件。我可以在一张地图中设置两个或多个文件，然后并行处理吗？

Answer 1

def wholeTextFiles(
  path: String,
  minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope

返回配对的RDD，其中key是File，值是Content