如何根据键/值对RDD进行分区?

时间:2018-07-02 10:19:54

标签: scala apache-spark

我正在某个目录中阅读pdf并将其转换为文本。当我直接使用saveAsTextFile时,所有文件中的数据都变成一个文件。相反,我想根据键/值将输出写入多个文件。

val fileData = sc.binaryFiles(filePath)

val test = fileData.values.map(x => {
   /* code to convert PortableDataStream
    * to Text */
}).saveAsTextFile("/home/vishnu/utilityc")

fileData为RDD[(String, PortableDataStream)]

0 个答案:

没有答案