应用错误收集

apache spark Streaming textFileStream - 读取gzip文件

时间：2015-05-05 02:21:58

标签： java apache-spark

我正在使用Spark流处理放置在HDFS中的文件。特别是使用textFileStream类的JavaStreamingContext方法。

由于方法名称包含＆＃39; text＆＃39;我以为这只会读取文本文件，但令我惊讶的是它还在阅读gzip压缩文本文件。

任何人都可以澄清这是否是预期的行为以及它能读取的所有格式？

1 个答案:

答案 0 :(得分：1)

是的，Spark使用Hadoop的File I / O API，它可以透明地处理压缩格式。即使对于输出，您也可以配置应通过属性设置使用的压缩，API将处理它。