Question

如何使用Python在Spark中读取和编写压缩的SequenceFile。

我在使用Python 2.7的CDH 5.12 Quickstart VM上使用Spark 1.6

如下所示找到示例，但无效。

rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))

sparkContext.sequenceFile(<path location>, classOf[<class name>], classOf[<compressionCodecClass >]);

需要工作代码进行测试。

Answer 1

要阅读Pyspark中的压缩sequencefile，请使用以下代码：

`myRDD = sparkcontext.sequenceFile("FILE_PATH")`

在Hadoop中，我们可以在core-site.xml文件中找到各种受支持的压缩编解码器。

很少受欢迎的是：

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec

要在Pyspark中使用任何这些压缩编解码器编写Sequencefile，请使用以下代码（对于GzipCodec）： MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")

如何使用Python和任何支持的压缩编解码器在spark中读取和编写压缩序列文件

1 个答案: