应用错误收集

如何确定何时k意味着为tf idf收敛？

时间：2016-08-05 19:55:30

标签： python scikit-learn k-means tf-idf convergence

我处理文本数据时相当新。

我有一个大约300,000个唯一产品名称的数据框，我正在尝试使用k方法将相似的名称聚集在一起。我使用了sklearn的tfidfvectorizer来对名称进行矢量化并转换为tf-idf矩阵。

在我将其转换为稀疏矩阵后，我将k表示为5-10个聚类，但我不知道我是否正在收敛。

我怎么能弄清楚这一点？

1 个答案:

答案 0 :(得分：1)

根据the source，属性n_iter_应该包含数字k-means迭代。如果n_iter_ < max_iter，则算法收敛于给定的容差范围内。

如果您要完成的工作是确定最佳群集数量，则可以使用elbow method和inertia_属性。