我有一个关于火花的简单问题。
想象一下包含此数据的文件:
00000000000
01000000000
02000000000
00000000000
01000000000
02000000000
03000000000
我想创建一个rdd或sparkdataframe,它基于以00开头的行来打破这些数据。所以它将是一个字符串数组的rdd,在这种情况下,基于这个数据示例,将是这样的行:
[00000000000, 01000000000, 02000000000] // first row
[00000000000, 01000000000, 02000000000, 03000000000] // second row
因此它将基于以00开头的行分割数据,并创建一个包含所有其他行的字符串数组,直到找到另一行以00开头,其中rdd的下一行应该开始。
我真的很感激一些代码示例。
谢谢。