目的
汇总商店位置GPS信息(经度,纬度)
周边商店区域的总人口规模(例如1,000,000 居民)
问题
[40.713, 74.005, 8406]
),这不会构建三维空间中的中心点吗?如果是这样,距离是否会不正确地倾斜并错误地代表仓库配送中心的最佳位置?参考
参考文献1:http://cs.au.dk/~simina/weighted.pdf(第5页)
还可以证明,其他一些类似于k均值的算法,即k-median和k-mediods也是 重量可分。详细信息见附录。观察所有这些流行的目标函数是高度的 对体重有所反应。
参考文献2:https://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf(第39页:“处理不同群集大小的能力”
答案 0 :(得分:3)
1)你只想在(经度,纬度)空间做k-means。如果将种群作为第三维添加,则会将质心偏向大型人口中心之间的中点,这些中心通常相隔很远。
2)在k-means中加入加权的最简单的方法是根据其人口权重重复一个点(经度,纬度)。
3)k-means可能不是作业的最佳聚类算法,因为旅行时间不随距离线性缩放。此外,基本上保证你不会有一个配送中心在大型人口中心爆炸,这可能不是你想要的。我会使用DBSCAN,scikit-learn有一个很好的实现: http://scikit-learn.org/stable/modules/clustering.html