Clara使用R对二进制数据进行聚类

时间:2016-06-12 14:10:14

标签: r cluster-analysis

我有一个非常大的数据帧(大约120k行,24列),我想用 pam 算法执行聚类。所有列都是二进制变量,其中1代表属性的存在,0代表缺席。

我看到使用如此大的数据集进行此操作的方法是通过 clara 算法,该算法在{cluster}包中实现。问题是在文档中我看到clara作为输入:

  

数据矩阵或数据帧,每行对应一个观察,每列对应一个变量。 所有变量必须为数字。允许缺少值(NAs)。

那么我应该如何对我的数据应用clara算法呢? 通常它应该处理分类变量,因为 pam 算法没有计算方法,但除了this question之外我无法在线找到任何有用的信息,这些信息仍未得到答复。< / p>

我可以简单地将我的列转换为数字以使算法正常工作,但我担心这不是使用此算法处理二进制数据的正确解决方案。

0 个答案:

没有答案