标签: python-3.x scikit-learn k-means
我在包含超过150k个文档的数据集上使用k均值,但我不知道k的值是多少。 我尝试用弯头法找到它,但是惯性值变化不大。(我正在使用sklearn)。
150k
k
这是
答案 0 :(得分:1)
如果肘方法没有明确的答案,那么簇数可能不是特别好。 k均值只能模拟球形关系,这可能是限制性的。您也许可以尝试其他功能表示形式,例如基于Word Embeddings的功能。
对于文档分组任务,您可能希望使用主题建模方法来代替聚类,例如潜在Dirichlet分配(LDA)或非负矩阵分解(NMF)。