我有java Regex代码,它读取我的非结构化Web日志文件的多行并生成json数据。
日志文件如下所示,
[2018-03-06 09:00:44,111] line1
[2018-03-06 09:00:46,236] line2
[2018-03-06 09:01:07,503] line3
[2018-03-06 09:01:20,097] line4
现在,我尝试在数据流管道中执行此转换。但是,我没有找到一种方法来一起读取/处理多行。有人可以帮我处理使用数据流的多行Web日志文件吗?
答案 0 :(得分:0)
Dataflow / Apache beam一次读取一行,并且不能一起处理多行。因此,我编写了一个过程,将多行文件转换为带分隔符的单行,然后作为输入传递给Dataflow管道。