如何使用Python在Spark中读取和编写压缩的SequenceFile
。
我在使用Python 2.7的CDH 5.12 Quickstart VM上使用Spark 1.6
如下所示找到示例,但无效。
rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))
sparkContext.sequenceFile(<path location>,
classOf[<class name>],
classOf[<compressionCodecClass >]);
需要工作代码进行测试。
答案 0 :(得分:0)
要阅读Pyspark中的压缩sequencefile
,请使用以下代码:
`myRDD = sparkcontext.sequenceFile("FILE_PATH")`
在Hadoop中,我们可以在core-site.xml文件中找到各种受支持的压缩编解码器。
很少受欢迎的是:
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec
要在Pyspark中使用任何这些压缩编解码器编写Sequencefile
,请使用以下代码(对于GzipCodec):
MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")