我想对数据集执行K表示聚类,如下所示
(OA,mobileNO,Text是csv的标题)
OA | mobileNO |文字
575756 | 918050173932 | sekhar添加了一张照片。见https://fb.com/l/
RM-444555 | 91879225717 | Dominos买1披萨&获得1免费
VM-OLAMNY | 919160281882 |在OLA驾驶室中添加了rs.10
如上所述我有一个庞大的数据集,我如何聚类数据并在其中找到隐藏的模式。 (例如:哪个OA正在发送与出租车相关的消息,OA正在发送fb通知等。)
我必须根据他们发送的文本来获取OA的集群
群集1:与cab相关的OA群集2:fb通知等
K-means聚类是否仅适用于数字数据?
答案 0 :(得分:0)
k-means仅对连续数值变量可靠地运行。
有一个原因:在其他数据上, mean 没有意义,所以k-means集群没有意义。