应用错误收集

我有一个关于火花的简单问题。

想象一下包含此数据的文件：

00000000000
01000000000
02000000000
00000000000
01000000000
02000000000
03000000000

我想创建一个rdd或sparkdataframe，它基于以00开头的行来打破这些数据。所以它将是一个字符串数组的rdd，在这种情况下，基于这个数据示例，将是这样的行：

[00000000000, 01000000000, 02000000000] // first row
[00000000000, 01000000000, 02000000000, 03000000000] // second row

因此它将基于以00开头的行分割数据，并创建一个包含所有其他行的字符串数组，直到找到另一行以00开头，其中rdd的下一行应该开始。

我真的很感激一些代码示例。

谢谢。