我有来自日志文件的数据,如下所示:
messageprolog = [version .....]
0: |....h..|
16: |.....ho|
32: |wareyou|
有效负载内容:
0: |...abc..|
16: |.....iam|
32: |good....|
64: |...hbu..|
DEBUG请求提供程序
我想处理这个文件,作为输出,我想组合管道中包含的数据||。管道中的一组数据应该作为一行输出,另一行输出来自其他组。
如上所述应输出如下:
....h.......howareyou
...abc.......iamgood.......hbu..
我正在考虑如何在spark中完成它,并且因为日志的大小很大而具有并行处理的好处?