我有这样的数据集:
use_id time lat-lon bin repeated
1335 08:05:00 (87,78) 20 1
1335 08:10:00 (87,78) 20 2
1335 08:15:00 (87,78) 20 3
1335 08:20:00 (88,78) 22 1
1335 08:25:00 (88,78) 22 2
1335 08:30:00 (89,78) 23 1
1335 08:35:00 (89,70) 25 1
1335 08:40:00 (80,78) 26 1
1335 08:45:00 (80,78) 26 2
1335 08:50:00 (80,78) 26 3
1335 08:55:00 (80,78) 26 4
.... ........ ....... .. .
我想找到基于垃圾箱的旅行。这是一个想法:当当前箱子与下一个箱子不同时,行程将开始。并且,在看到四个重复箱子之后,行程应该在第一个重复箱子上结束。
对于每次旅行,我想提取旅行的起点和终点的“lat-lon”和“time”。最后,我想要为每个不同的“user_id”提供一个旅行列表。
例如,在这里,旅行应该从最后的20开始,并且应该在前26个结束。所以,最后我应该有这样的事情:
[20,26] = [((87,78),08:15:00),((80,78),08:40:00)]
(我的数据集中有更多“user_id”。在这里你只能看到一个。)
我添加了“重复”列以找到bin的重复。我教过也许它可以帮助我,但我不知道如何继续。
请告诉我它是否需要更多信息。感谢