我正在使用Spark流处理放置在HDFS中的文件。特别是使用textFileStream
类的JavaStreamingContext
方法。
由于方法名称包含' text'我以为这只会读取文本文件,但令我惊讶的是它还在阅读gzip压缩文本文件。
任何人都可以澄清这是否是预期的行为以及它能读取的所有格式?
答案 0 :(得分:1)
是的,Spark使用Hadoop的File I / O API,它可以透明地处理压缩格式。即使对于输出,您也可以配置应通过属性设置使用的压缩,API将处理它。