我想聚集来自Twitter的数据。我有用户和他们的距离。我不能使用K-means,因为k-means不支持度量空间中的聚类。在度量空间中是否存在聚类实现?
答案 0 :(得分:1)
您是否考虑过使用层次聚类来解决此问题?
此外,还有一些关于度量空间中的群集的讲座可能会有所帮助: Clustering Large Datasets in Arbitrary Metric Spaces
以下是java的一些集群包:
有一个关于交叉验证的问题可能有所帮助,他们没有使用java,但他们提供的解决方案可能有所帮助:Clustering with a distance matrix
答案 1 :(得分:1)
说真的,找一本关于聚类分析的书。
必须有数百个聚类算法,其中许多算法适用于您有一些相似概念的任意空间。只要您的相似性概念良好,他们就可以对数据进行聚类。大部分时间他们都失败了,你的相似性一开始就不起作用。
无论如何,你的问题太广泛了,无法给你一个好的答案。你需要自己尝试这些算法中的一些。