apache spark Streaming textFileStream - 读取gzip文件

时间:2015-05-05 02:21:58

标签: java apache-spark

我正在使用Spark流处理放置在HDFS中的文件。特别是使用textFileStream类的JavaStreamingContext方法。

由于方法名称包含' text'我以为这只会读取文本文件,但令我惊讶的是它还在阅读gzip压缩文本文件。

任何人都可以澄清这是否是预期的行为以及它能读取的所有格式?

1 个答案:

答案 0 :(得分:1)

是的,Spark使用Hadoop的File I / O API,它可以透明地处理压缩格式。即使对于输出,您也可以配置应通过属性设置使用的压缩,API将处理它。