K-Means聚集在火花上

时间:2016-09-15 12:45:26

标签: apache-spark pyspark k-means

我想聚集100万个字符串(名称)列表,使用频率 - 逆文档频率(tf-idf)矢量函数参数将其转换为tf-idf矩阵,在Spark ec2实例上具有名称/ 4个簇,具有8GB RAM和64 GB内存。

 str_no_cluster=names/4
km = KMeans(n_clusters=str_no_cluster,n_init=5,max_iter=30,n_jobs=-1)
km.fit(tfidf_matrix)
clusters = km.labels_.tolist()
print(len(clusters))
frame = pd.DataFrame(names_dict,index = [clusters],columns=names_dict.keys())
print(frame)

当我运行python Kmeans程序时,它停止10到15分钟然后停止执行程序。 任何想法如何使它更快,RAM和内存需要多少?

0 个答案:

没有答案