我正在努力寻找一种使用spark streaming解析多行日志的方法。我创建了一个解析器,它将一个字符串数组作为输入参数。当找到多行堆栈跟踪时,它会在每一行上循环,直到它在处理之前到达“正常”行。
日志通过Flume在kafka主题上注入,并通过KafkaUtils.createDirectStream接收。
当谈到火花流时,堆叠痕迹可能会在2个(或更多)分布式RDD的中间切割。如果没有发生,我会很幸运...
我的问题是:在处理之前,我可以做些什么来重建被切割的堆栈跟踪?
我应该预先处理RDD并创建包含我正在等待的新RDD吗? 我应该通过全局缓冲区重建堆栈跟踪吗? 我应该以某种方式玩补偿吗?究竟是怎么回事?
欢迎任何想法。
感谢名单,
- 麦克