我正在某个目录中阅读pdf并将其转换为文本。当我直接使用saveAsTextFile
时,所有文件中的数据都变成一个文件。相反,我想根据键/值将输出写入多个文件。
val fileData = sc.binaryFiles(filePath)
val test = fileData.values.map(x => {
/* code to convert PortableDataStream
* to Text */
}).saveAsTextFile("/home/vishnu/utilityc")
fileData为RDD[(String, PortableDataStream)]