如何在仅字符串的数据上运行集群R

时间:2018-06-20 00:35:09

标签: r string cluster-analysis unsupervised-learning

我正在尝试在非常大的数据集上运行集群。它仅包含值的字符串。我删除了NA,并替换为虚拟值。由于NA强制,我在R中的K均值不断失败。社区将如何在此数据上运行集群。我在下面显示10个虚拟示例的行。在这种情况下,请调用数据框:cluster_data enter image description here

任何帮助将不胜感激。我正在尝试查看是否有任何列导致数据更早损坏,然后再尝试另一列来尝试了解可能的结构。使用K-means进行思想聚类是最好的方法,但是看不到如何处理字符串。已转换为R中的因子,仍然存在问题。十分感谢示例代码

2 个答案:

答案 0 :(得分:2)

问题:如何使用字符串运行kmeans集群?

答案:您不能运行k表示对分类数据进行聚类分析。您需要距离函数可以理解的数据。

答案 1 :(得分:1)

K-均值是设计的用于连续变量,其中最小二乘法和均值可以用作中心。

对于其他数据类型,最好起诉其他算法,例如PAM,HAC,DBSCAN,OPTICS,...