我有1000个地理点(纬度,长度)作为原点/目的地点。还有一个历史数据显示了一些O-D对之间的旅行成本。对于一些O-D,数据集中没有记录,并且一些具有不同成本的多个记录(例如,由于季节性)。
我想将这1000个点聚类到几个聚类(例如20个),不仅基于它们的位置(纬度,长度),还要考虑平均旅行成本和共享目的地点。
如果您对聚类这些数据有任何建议,我们将不胜感激。
答案 0 :(得分:0)
你必须以某种方式处理缺失值 - 为它们分配一些给定的标签或取一些均值/中值。然后你可以使用你想要的任何算法(不同类型的特征可以一起用作算法的输入)
如果没有太多的数据维度,并且您或多或少知道可能有多少个集群,那么k-means算法应该可以正常工作。
如果要在2d和3d上可视化数据和群集,并且您将拥有更多功能,则必须应用降维(PCA,t-SNE)。