k-means使用spark Mlib进行聚类

时间:2016-10-25 11:19:53

标签: apache-spark machine-learning data-mining k-means text-classification

我想对数据集执行K表示聚类,如下所示

(OA,mobileNO,Text是csv的标题)

OA | mobileNO |文字
575756 | 918050173932 | sekhar添加了一张照片。见https://fb.com/l/
RM-444555 | 91879225717 | Dominos买1披萨&获得1免费
VM-OLAMNY | 919160281882 |在OLA驾驶室中添加了rs.10

如上所述我有一个庞大的数据集,我如何聚类数据并在其中找到隐藏的模式。 (例如:哪个OA正在发送与出租车相关的消息,OA正在发送fb通知等。)

我必须根据他们发送的文本来获取OA的集群

群集1:与cab相关的OA群集2:fb通知等

K-means聚类是否仅适用于数字数据?

1 个答案:

答案 0 :(得分:0)

k-means仅对连续数值变量可靠地运行。

有一个原因:在其他数据上, mean 没有意义,所以k-means集群没有意义。