如何确定何时k意味着为tf idf收敛?

时间:2016-08-05 19:55:30

标签: python scikit-learn k-means tf-idf convergence

我处理文本数据时相当新。

我有一个大约300,000个唯一产品名称的数据框,我正在尝试使用k方法将相似的名称聚集在一起。我使用了sklearn的tfidfvectorizer来对名称进行矢量化并转换为tf-idf矩阵。

在我将其转换为稀疏矩阵后,我将k表示为5-10个聚类,但我不知道我是否正在收敛。

我怎么能弄清楚这一点?

1 个答案:

答案 0 :(得分:1)

根据the source,属性n_iter_应该包含数字k-means迭代。如果n_iter_ < max_iter,则算法收敛于给定的容差范围内。

如果您要完成的工作是确定最佳群集数量,则可以使用elbow methodinertia_属性。