应用错误收集

我正在努力寻找一种使用spark streaming解析多行日志的方法。我创建了一个解析器，它将一个字符串数组作为输入参数。当找到多行堆栈跟踪时，它会在每一行上循环，直到它在处理之前到达“正常”行。

日志通过Flume在kafka主题上注入，并通过KafkaUtils.createDirectStream接收。

当谈到火花流时，堆叠痕迹可能会在2个（或更多）分布式RDD的中间切割。如果没有发生，我会很幸运...

我的问题是：在处理之前，我可以做些什么来重建被切割的堆栈跟踪？

我应该预先处理RDD并创建包含我正在等待的新RDD吗？我应该通过全局缓冲区重建堆栈跟踪吗？我应该以某种方式玩补偿吗？究竟是怎么回事？

欢迎任何想法。

感谢名单，

- 麦克