如何通过spark streaming处理多个.gz文件?

时间:2016-12-26 12:17:57

标签: spark-streaming

我一直试图通过spark streaming从hadoop文件系统中读取多个.gz文件。有没有可能这样做?如果是,你能为我提供解决方案

1 个答案:

答案 0 :(得分:-1)

基于时间戳的Spark Streaming处理文件,即仅处理在火花流开始后添加到特定路径的那些文件。 Spark流不会处理在流式上下文开始之前放置的文件。

简单来说,Streaming适用于实时数据而非旧数据。