减少数据但保留Spark中的顺序

时间:2018-10-30 17:52:02

标签: python apache-spark pyspark

我有以下数据库

ID_car, latitude, longitude, time (timestamp)

例如,如果我有以下情况,我想减少数据以在同一纬度上获得汽车在点之间的差异(仅作为示例)

1, 10, 20, 1020
1, 10, 22, 1001
1, 10, 23, 1000

首先,我需要对时间戳进行排序,然后,我想减少数据以获取经度之间的差异:

data.sortBy(lambda row: row[2]) \
.reduce(lambda x, y: y[2] - x[2])

但是Spark 不会保留数据顺序,因此,我不能说 y 晚于 x

是否有一种方法可以减少Spark中的数据,但保留顺序?

真实数据:

ID  Lat Lon Timestamp Dest
905 28  28  8079
905 28  27  8088
905 27  27  8097
905 26  27  8006
905 25  27  8115
905 24  27  8124       School

实际问题:

我需要延长直线行驶的行程,因此,我需要按时间点排序,因为也许汽车是向右/向左转而不再是直线。

在此先感谢我的英语

0 个答案:

没有答案