如何在spark中按时间顺序处理数据?

时间:2015-05-20 20:17:03

标签: apache-spark

我有一个键值RDD,键是一个时间戳(毫微微秒的分辨率,所以分组没有给我买任何东西),我想按时间顺序减少它。

我如何在火花中做到这一点?

我可以单独减少集合的连续部分,然后在本地聚合生成的对象。

1 个答案:

答案 0 :(得分:0)

您可以使用repartitionAndSortWithinPartitions。