标签: spark-streaming
我一直试图通过spark streaming从hadoop文件系统中读取多个.gz文件。有没有可能这样做?如果是,你能为我提供解决方案
.gz
答案 0 :(得分:-1)
基于时间戳的Spark Streaming处理文件,即仅处理在火花流开始后添加到特定路径的那些文件。 Spark流不会处理在流式上下文开始之前放置的文件。
简单来说,Streaming适用于实时数据而非旧数据。