我有以下数据库
ID_car, latitude, longitude, time (timestamp)
例如,如果我有以下情况,我想减少数据以在同一纬度上获得汽车在点之间的差异(仅作为示例)
1, 10, 20, 1020
1, 10, 22, 1001
1, 10, 23, 1000
首先,我需要对时间戳进行排序,然后,我想减少数据以获取经度之间的差异:
data.sortBy(lambda row: row[2]) \
.reduce(lambda x, y: y[2] - x[2])
但是Spark 不会保留数据顺序,因此,我不能说 y 晚于 x 。>
是否有一种方法可以减少Spark中的数据,但保留顺序?
真实数据:
ID Lat Lon Timestamp Dest
905 28 28 8079
905 28 27 8088
905 27 27 8097
905 26 27 8006
905 25 27 8115
905 24 27 8124 School
实际问题:
我需要延长直线行驶的行程,因此,我需要按时间点排序,因为也许汽车是向右/向左转而不再是直线。
在此先感谢我的英语