我使用binaryFiles从HDFS读取文件,但是一张地图只有一个文件。
sparkContext.binaryFiles("hdfs://name/a/b/id-*.zzz").map(x=>{})
在地图阶段,我只能处理一个文件。我可以在一张地图中设置两个或多个文件,然后并行处理吗?
答案 0 :(得分:0)
def wholeTextFiles(
path: String,
minPartitions: Int = defaultMinPartitions): RDD[(String, String)] = withScope
返回配对的RDD,其中key是File,值是Content