应用错误收集

我有来自日志文件的数据，如下所示：

messageprolog = [version .....]

0:  |....h..|

16: |.....ho|

32: |wareyou|

有效负载内容：

0:  |...abc..|

16: |.....iam|

32: |good....|

64: |...hbu..|

DEBUG请求提供程序

我想处理这个文件，作为输出，我想组合管道中包含的数据||。管道中的一组数据应该作为一行输出，另一行输出来自其他组。

如上所述应输出如下：

....h.......howareyou

...abc.......iamgood.......hbu..

我正在考虑如何在spark中完成它，并且因为日志的大小很大而具有并行处理的好处？