r - 如何在仅字符串的数据上运行集群R

时间：2018-06-20 00:35:09

标签： r string cluster-analysis unsupervised-learning

我正在尝试在非常大的数据集上运行集群。它仅包含值的字符串。我删除了NA，并替换为虚拟值。由于NA强制，我在R中的K均值不断失败。社区将如何在此数据上运行集群。我在下面显示10个虚拟示例的行。在这种情况下，请调用数据框：cluster_data

任何帮助将不胜感激。我正在尝试查看是否有任何列导致数据更早损坏，然后再尝试另一列来尝试了解可能的结构。使用K-means进行思想聚类是最好的方法，但是看不到如何处理字符串。已转换为R中的因子，仍然存在问题。十分感谢示例代码

答案 0 :(得分：2)

问题：如何使用字符串运行kmeans集群？

答案：您不能运行k表示对分类数据进行聚类分析。您需要距离函数可以理解的数据。

答案 1 :(得分：1)

K-均值是设计的用于连续变量，其中最小二乘法和均值可以用作中心。

对于其他数据类型，最好起诉其他算法，例如PAM，HAC，DBSCAN，OPTICS，...