应用错误收集

k-means使用spark Mlib进行聚类

时间：2016-10-25 11:19:53

标签： apache-spark machine-learning data-mining k-means text-classification

我想对数据集执行K表示聚类，如下所示

（OA，mobileNO，Text是csv的标题）

OA | mobileNO |文字
575756 | 918050173932 | sekhar添加了一张照片。见https://fb.com/l/
RM-444555 | 91879225717 | Dominos买1披萨＆amp;获得1免费
VM-OLAMNY | 919160281882 |在OLA驾驶室中添加了rs.10

如上所述我有一个庞大的数据集，我如何聚类数据并在其中找到隐藏的模式。（例如：哪个OA正在发送与出租车相关的消息，OA正在发送fb通知等。）

我必须根据他们发送的文本来获取OA的集群

群集1：与cab相关的OA群集2：fb通知等

K-means聚类是否仅适用于数字数据？

1 个答案:

答案 0 :(得分：0)

k-means仅对连续数值变量可靠地运行。

有一个原因：在其他数据上， mean 没有意义，所以k-means集群没有意义。

K-means使用Apache Spark进行聚类
K均值聚类
有关使用Spark MLIB中的K-Means聚类算法生成的群集的更多信息
Spark MLlib K-Means聚类
K-Means聚集在火花上
k-means使用spark Mlib进行聚类
K表示使用apache spark聚类ml库
K表示聚类
使用Apache spark Zeppelin进行k-means聚类
K-Means聚类后Spark节省质心

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？