应用错误收集

在Spark中解压缩LZ4压缩数据

时间：2014-07-27 21:10:56

标签： hadoop hdfs apache-spark lz4

我在HDFS中有LZ4压缩数据，我试图将它在Apache Spark中解压缩成RDD。据我所知，JavaSparkContext中从HDFS读取数据的唯一方法是textFile，它只读取HDFS中的数据。我在CompressionCodec上遇到过文章，但所有文章都解释了如何将输出压缩为HDFS，而我需要解压缩HDFS上的内容。

我是Spark的新手，所以如果我错过了一些明显的东西，或者如果我的概念理解不正确，我会提前道歉，但如果有人能指出我正确的方向，那就太好了。

1 个答案:

答案 0 :(得分：1)

Spark 1.1.0 supports通过sc.textFile读取LZ4压缩文件。通过使用支持LZ4的Hadoop构建的Spark（在我的情况下为2.4.1），我已经开始工作了

之后，我按照Hadoop docs中的描述为我的平台构建了本机库，并通过--driver-library-path选项将它们链接到Spark。

没有关联，就有native lz4 library not loaded例外。

根据您使用构建本机库的Hadoop发行版，步骤可以是可选的。