如何使用Python和任何支持的压缩编解码器在spark中读取和编写压缩序列文件

时间:2018-04-24 12:17:04

标签: pyspark compression sequencefile

如何使用Python在Spark中读取和编写压缩的SequenceFile

我在使用Python 2.7的CDH 5.12 Quickstart VM上使用Spark 1.6

如下所示找到示例,但无效。

rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))

sparkContext.sequenceFile(<path location>, classOf[<class name>], classOf[<compressionCodecClass >]);

需要工作代码进行测试。

1 个答案:

答案 0 :(得分:0)

要阅读Pyspark中的压缩sequencefile,请使用以下代码:

`myRDD = sparkcontext.sequenceFile("FILE_PATH")`

在Hadoop中,我们可以在core-site.xml文件中找到各种受支持的压缩编解码器。

很少受欢迎的是:

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec

要在Pyspark中使用任何这些压缩编解码器编写Sequencefile,请使用以下代码(对于GzipCodec):   MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")