我正在使用
在spark中读取压缩文件val data = sc.textFile(inputFile)
这为我提供了数据RDD[string]
。
如何将其转换为scala中的RDD[(Array[Byte], Array[Byte])]
?
有关此要求的更多详情:
我在火花上使用terasort。默认情况下,terasort不会写入压缩输出HDFS。 要解决该问题,请将以下代码添加到TeraSort.scala文件
sorted.saveAsHadoopFile(outputFile,classOf[Text],classOf[IntWritable],
classOf[TextOutputFormat[Text,IntWritable]],
classOf[org.apache.hadoop.io.compress.SnappyCodec])
这为我提供了压缩输出文件
现在我需要读取此文件来运行TeraValidate。
Teravalidate期望以RDD[(Array[Byte], Array[Byte])]
格式输入。
由于