应用错误收集

从日志存档创建Spark Dstreams

时间：2015-12-01 22:31:01

标签： hadoop apache-spark streaming

我是Spark的新手;看起来很棒！

我有来自不同来源的每小时日志文件，并希望通过约5分钟的滑动窗口从它们创建DStreams来探索相关性。

我只是想知道实现这一目标的最佳方法是什么。我应该将它们分成不同目录中的5分钟块吗？如何将命名结构与不同HDFS目录中的特定时间片相关联？我是否实现了一个知道日志记录的嵌入时间戳的filter（）方法？

建议，RTFM欢迎。

谢谢！克里斯

1 个答案:

答案 0 :(得分：0)

您可以使用apache Kafka作为Dstream源，然后您可以尝试reduceByKeyAndWindow Dstream功能。它将根据您所需的时间创建一个窗口

Trying to understand spark streaming windowing