我有一个Pandas数据框,其中包含以下列:
lat1 lon1 lat2 lon2
lat
和lon
变量的纬度和经度均为度。许多要点非常非常接近。我想将这个数据帧划分为'簇,例如,将所有彼此相距60英尺的数据点组合在一起。我知道我可以使用geopy.distance.vincenty
来获得点之间的距离。但是我不确定如何根据彼此的距离来循环数据帧到聚类点。
答案 0 :(得分:0)
问题是您的任务没有明确定义。
考虑点a,b,c。设距离为:a到b:40,b到c:40,a到c 80。
现在,如果你想平均60分以内的分数,那么你需要用a和c来平均b,而不是a和c!
你需要在这里更精确。也许是单链路聚类,但也许你想要完整的链接,或平均链接,或病房,或DBSCAN,或......