我正在处理一个包含纬度,经度和日期时间的数据集,每天有500万个点。 而且我没有预期的群集数量,并且取决于群集应该更改的日期。
我正在用Python
用clickhouse database
进行编码,以存储源数据。
==>有没有办法做一个包含3个功能的spatiotemporal clustering
?
到目前为止,我已经缩放/规范化了这三个功能,并使用了MiniBatchKMeans(当前使用的解决方案)或Euclidian distance
,但是我失去了点之间的物理距离的概念。
DBSCAN
或HDBSCAN
与Havresine
仅接受2个特征(弧度的纬度)。
此外,这种无法进行容量排除的非优化解决方案也无法扩展(我已经尝试了GitHub上的ST-DBSCAN,在仅运行2小时的数据15小时后便停止了该操作)。
我希望得到我的数据点簇,将位置和时间上最近的点重新组合在一起。