K均值VS K方式? (文本聚类)

时间:2018-11-02 09:39:41

标签: algorithm cluster-analysis k-means tf-idf unsupervised-learning

我知道K均值可以通过矢量化并找到它们的TF-IDF值来对文档进行聚类。除了分类/连续变量定义,我们何时/如何决定哪个(K-Means or K-modes)会产生更好的结果?是真的能带来更好的结果,还是根据具体情况?

我已经使用tf-idf进行了KMeans聚类,它们似乎给出了不错的结果,但是我找不到任何将两者进行比较以进入K-Mode的材料。互联网上还有很多用于k-means + tf-idf的文本聚类,而对于k-mode则不多。任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:1)

K模式实际上仅适用于分类数据。不适用于稀疏数值数据,例如词袋或tf-idf向量。

考虑模式:通常不会给出全零向量吗?然后,您所有的聚类均值将消失。

以我的经验,除对您的数据外,文本上的k均值对非常也无效。因为它无法处理异常值,并且文本数据中充满了异常值文档。