应用错误收集

我想聚集100万个字符串（名称）列表，使用频率 - 逆文档频率（tf-idf）矢量函数参数将其转换为tf-idf矩阵，在Spark ec2实例上具有名称/ 4个簇，具有8GB RAM和64 GB内存。

 str_no_cluster=names/4
km = KMeans(n_clusters=str_no_cluster,n_init=5,max_iter=30,n_jobs=-1)
km.fit(tfidf_matrix)
clusters = km.labels_.tolist()
print(len(clusters))
frame = pd.DataFrame(names_dict,index = [clusters],columns=names_dict.keys())
print(frame)

当我运行python Kmeans程序时，它停止10到15分钟然后停止执行程序。任何想法如何使它更快，RAM和内存需要多少？

K-Means聚集在火花上

0 个答案: