根据spark中的上一行处理下一行

时间:2017-05-01 10:40:48

标签: apache-spark apache-spark-sql spark-dataframe

我有来自日志文件的数据,如下所示:

  

messageprolog = [version .....]

0:  |....h..|

16: |.....ho|

32: |wareyou|

有效负载内容:

0:  |...abc..|

16: |.....iam|

32: |good....|

64: |...hbu..|

DEBUG请求提供程序

我想处理这个文件,作为输出,我想组合管道中包含的数据||。管道中的一组数据应该作为一行输出,另一行输出来自其他组。

如上所述应输出如下:

....h.......howareyou

...abc.......iamgood.......hbu..

我正在考虑如何在spark中完成它,并且因为日志的大小很大而具有并行处理的好处?

0 个答案:

没有答案