我想聚集100万个字符串(名称)列表,使用频率 - 逆文档频率(tf-idf)矢量函数参数将其转换为tf-idf矩阵,在Spark ec2实例上具有名称/ 4个簇,具有8GB RAM和64 GB内存。
str_no_cluster=names/4
km = KMeans(n_clusters=str_no_cluster,n_init=5,max_iter=30,n_jobs=-1)
km.fit(tfidf_matrix)
clusters = km.labels_.tolist()
print(len(clusters))
frame = pd.DataFrame(names_dict,index = [clusters],columns=names_dict.keys())
print(frame)
当我运行python Kmeans程序时,它停止10到15分钟然后停止执行程序。 任何想法如何使它更快,RAM和内存需要多少?