我有两个关于分析GPS数据集的问题。
1)提取轨迹我有一个巨大的数据库,记录了(latitude, longitude, date-time)
格式的GPS坐标。根据连续记录的日期时间值,我试图提取人所遵循的所有轨迹/路径。例如;从时间M
开始,(x,y)
对不断变化,直到时间N
。在N
之后,(x,y)
对的变化减少,此时我得出结论,从时间M
到N
的路径可称为轨迹。在提取轨迹时,这是一个不错的方法吗?您可以建议任何众所周知的方法/方法/算法吗?是否有任何数据结构或格式建议我以有效的方式维护这些点?也许,对于每个轨迹,确定速度和加速度会有用吗?
2)挖掘轨迹一旦我遵循了所有轨迹/路径,我该如何比较/聚类它们?我想知道起点或终点是否相似,那么中间路径如何比较?
如何比较2条路径/路线,并得出它们是否相似的结论。此外;我如何将类似的路径聚集在一起?
如果你能指出我的研究或类似事情,我将非常感激。
开发将采用Python,但欢迎各种图书馆建议。
提前致谢。
答案 0 :(得分:9)
了解苏黎世大学地理系的工作,特别是Patrick Laube和Somayeh Dodge。
看看论文
个人运动和地理数据挖掘。聚类 突出个人导航路径中热点的算法
(link,presentation)。它展示了对GPS数据使用DBSCAN核密度估计方法。
诺基亚Mobile Data Challenge 2012 Workshop的论文在这里也很有帮助,尤其是:
Fabian Hartmann,Christoph P. Mayer,Ingmar Baumgart和MobReduce:降低流动性痕迹的状态复杂性(link)
轨迹聚类的轨迹清理框架(link)
作者:Agzam Idrissov,阿尔伯塔大学Mario A. Nascimento
答案 1 :(得分:1)
1)提取轨迹 我认为你的方向正确。 gps数据可能会有一些噪音,随机行走,你应该做一些像样条曲线一样平滑来克服它。
2)挖掘轨迹 在类似的轨迹中是否有任何商业意识? (这将有助于建立距离度量,然后您可以使用一些mahoot聚类算法) 1.我认为一些人更有趣的地方,所以你可以生成地方受欢迎程度的统计数据。 2.如果您需要路线相似性以找到到同一起始端的不同路径,则需要对第一个起始端位置进行聚类,然后通过(最大距离,整数距离 - 一些众所周知的功能度量)对类似曲线进行聚类