应用错误收集

时间：2018-11-02 09:39:41

标签： algorithm cluster-analysis k-means tf-idf unsupervised-learning

我知道K均值可以通过矢量化并找到它们的TF-IDF值来对文档进行聚类。除了分类/连续变量定义，我们何时/如何决定哪个（K-Means or K-modes）会产生更好的结果？是真的能带来更好的结果，还是根据具体情况？

我已经使用tf-idf进行了KMeans聚类，它们似乎给出了不错的结果，但是我找不到任何将两者进行比较以进入K-Mode的材料。互联网上还有很多用于k-means + tf-idf的文本聚类，而对于k-mode则不多。任何帮助表示赞赏！

答案 0 :(得分：1)

K模式实际上仅适用于分类数据。不适用于稀疏数值数据，例如词袋或tf-idf向量。

考虑模式：通常不会给出全零向量吗？然后，您所有的聚类均值将消失。

以我的经验，除对您的数据外，文本上的k均值对非常也无效。因为它无法处理异常值，并且文本数据中充满了异常值文档。