我正在使用Weka尝试不同的聚类算法。当我尝试使用欧几里德距离的SimpleKMeans算法时,我得到的错误分类实例的次数较少,然后当我尝试使用曼哈顿距离时,我会得到更多错误的分类实例。文本聚类的最佳距离指标是什么?为什么?为什么我得到非常不同的结果?我正在使用类来集群评估集群模式。
答案 0 :(得分:3)
假设有一个单词方法,曼哈顿距离更适合文档比较(虽然余弦距离通常是最佳方法),但K-Means是一种梯度下降算法,假设成本函数是可微分的这是欧几里德距离的情况,但与曼哈顿距离不一样。因此,即使欧几里德度量不是最佳的比较,K-Means可能会收敛到欧几里德距离比曼哈顿距离更好的解决方案。