是否可以使用Apache beam处理非结构化数据(多行Web日志)?

时间:2018-03-29 11:23:52

标签: google-cloud-dataflow apache-beam

我有java Regex代码,它读取我的非结构化Web日志文件的多行并生成json数据。

日志文件如下所示,

[2018-03-06 09:00:44,111] line1
[2018-03-06 09:00:46,236] line2
[2018-03-06 09:01:07,503] line3
[2018-03-06 09:01:20,097] line4

现在,我尝试在数据流管道中执行此转换。但是,我没有找到一种方法来一起读取/处理多行。有人可以帮我处理使用数据流的多行Web日志文件吗?

1 个答案:

答案 0 :(得分:0)

Dataflow / Apache beam一次读取一行,并且不能一起处理多行。因此,我编写了一个过程,将多行文件转换为带分隔符的单行,然后作为输入传递给Dataflow管道。