如何处理带有火花流的多行日志?

时间:2016-02-08 18:18:08

标签: java spark-streaming rdd

我正在努力寻找一种使用spark streaming解析多行日志的方法。我创建了一个解析器,它将一个字符串数组作为输入参数。当找到多行堆栈跟踪时,它会在每一行上循环,直到它在处理之前到达“正常”行。

日志通过Flume在kafka主题上注入,并通过KafkaUtils.createDirectStream接收。

当谈到火花流时,堆叠痕迹可能会在2个(或更多)分布式RDD的中间切割。如果没有发生,我会很幸运...

我的问题是:在处理之前,我可以做些什么来重建被切割的堆栈跟踪?

我应该预先处理RDD并创建包含我正在等待的新RDD吗? 我应该通过全局缓冲区重建堆栈跟踪吗? 我应该以某种方式玩补偿吗?究竟是怎么回事?

欢迎任何想法。

感谢名单,

- 麦克

0 个答案:

没有答案