Question

我有像

这样的行的流数据

[timestamp; ID; Value1; Value2]

应以正确的顺序到达spark（ip：port），并且可以通过ID进行分区。

现在我正在尝试根据条件批量/分组流数据 - 即＆＃34;创建新的RDD并放入流中的所有行（具有相同的ID并按时间戳排序），直到Value1 = 0＆＃ 34。

结果 - 我需要几个RDD / DataFrames / ......包含由CONDITION标识的序列，例如{值1 = 0}：

[2017010100001; ID; 0; 0]
[2017010100001; ID; 10; 5]
[2017010100001; ID; 11; 9]
[2017010100001; ID; 8; 4]
[2017010100001; ID; 0; 1]

如何实现这一目标？

非常感谢任何帮助或提示！

Answer 1

好的，根据我的理解，您需要为数据源执行此操作，

如果有帮助，请告诉我。欢呼声。