我知道K均值可以通过矢量化并找到它们的TF-IDF
值来对文档进行聚类。除了分类/连续变量定义,我们何时/如何决定哪个(K-Means or K-modes
)会产生更好的结果?是真的能带来更好的结果,还是根据具体情况?
我已经使用tf-idf进行了KMeans聚类,它们似乎给出了不错的结果,但是我找不到任何将两者进行比较以进入K-Mode的材料。互联网上还有很多用于k-means + tf-idf的文本聚类,而对于k-mode则不多。任何帮助表示赞赏!
答案 0 :(得分:1)
K模式实际上仅适用于分类数据。不适用于稀疏数值数据,例如词袋或tf-idf向量。
考虑模式:通常不会给出全零向量吗?然后,您所有的聚类均值将消失。
以我的经验,除对您的数据外,文本上的k均值对非常也无效。因为它无法处理异常值,并且文本数据中充满了异常值文档。