平均数据点在彼此的范围内?

时间:2015-12-18 18:11:32

标签: python pandas cluster-analysis

我有一个Pandas数据框,其中包含以下列:

lat1    lon1    lat2    lon2

latlon变量的纬度和经度均为度。许多要点非常非常接近。我想将这个数据帧划分为'簇,例如,将所有彼此相距60英尺的数据点组合在一起。我知道我可以使用geopy.distance.vincenty来获得点之间的距离。但是我不确定如何根据彼此的距离来循环数据帧到聚类点。

1 个答案:

答案 0 :(得分:0)

问题是您的任务没有明确定义。

考虑点a,b,c。设距离为:a到b:40,b到c:40,a到c 80。

现在,如果你想平均60分以内的分数,那么你需要用a和c来平均b,而不是a和c!

你需要在这里更精确。也许是单链路聚类,但也许你想要完整的链接,或平均链接,或病房,或DBSCAN,或......