用于Apache Flink的BZip2压缩输入

时间:2015-04-03 09:04:32

标签: bzip2 apache-flink

我有一个用bzip2压缩的维基百科转储(从http://dumps.wikimedia.org/enwiki/下载),但我不想解压缩它:我想在动态解压缩时处理它。

我知道可以用普通的Java做到这一点(参见例如Java - Read BZ2 file and uncompress/parse on the fly),但我想知道Apache Flink是如何做到的?我可能需要的是https://github.com/whym/wikihadoop,但对于Flink,而不是Hadoop。

1 个答案:

答案 0 :(得分:5)

可以在Apache Flink中读取以下格式的压缩文件:

org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec

从包名称可以看出,Flink使用Hadoop的InputFormats来做到这一点。 这是使用Flink的Scala API读取 gz 文件的示例: (你至少需要Flink 0.8.1)

def main(args: Array[String]) {

  val env = ExecutionEnvironment.getExecutionEnvironment
  val job = new JobConf()
  val hadoopInput = new TextInputFormat()
  FileInputFormat.addInputPath(job, new Path("/home/robert/Downloads/cawiki-20140407-all-titles.gz"))
  val lines = env.createHadoopInput(hadoopInput, classOf[LongWritable], classOf[Text], job)

  lines.print

  env.execute("Read gz files")
}

Apache Flink仅对 .deflate 文件具有内置支持。添加对更多压缩编解码器的支持很容易,但还没有完成。

在Flink中使用HadoopInputFormats不会导致任何性能损失。 Flink为Hadoop的Writable类型提供了内置序列化支持。