我处理文本数据时相当新。
我有一个大约300,000个唯一产品名称的数据框,我正在尝试使用k方法将相似的名称聚集在一起。我使用了sklearn的tfidfvectorizer来对名称进行矢量化并转换为tf-idf矩阵。
在我将其转换为稀疏矩阵后,我将k表示为5-10个聚类,但我不知道我是否正在收敛。
我怎么能弄清楚这一点?
答案 0 :(得分:1)
根据the source,属性n_iter_
应该包含数字k-means迭代。如果n_iter_ < max_iter
,则算法收敛于给定的容差范围内。
如果您要完成的工作是确定最佳群集数量,则可以使用elbow method和inertia_
属性。