R - Clara中的聚类

时间:2015-08-23 20:44:55

标签: r cluster-analysis

我刚开始使用R并试图与Clara集群。我没有得到我所希望的结果,并且想知道在哪里可以找到算法实现的细节和必要的预处理?更具体地说,我想澄清一下:

  1. Clara如何处理离散的名义数据?如果有5个类别,它会将其转换为5个二进制属性吗?

  2. Clara首先运行PCA然后在主要组件上运行聚类,还是我经常看到的用于可视化目的的PCA数据?

  3. 非常感谢对算法的任何了解。

1 个答案:

答案 0 :(得分:2)

欧几里德距离是根据数值定义的。

当您传递非数字数据时,需要来检查实现的功能。仔细检查,不要依赖来自第三方的模糊信息:这可能在不同版本中发生了变化。

三种明显的方法:

  • 忽略非数字属性
  • 回到汉明距离
  • 使用单热编码(=汉明距离* 2,除非加权,因此这不是一种可以轻易使用的方法)

我怀疑CLARA会自动规范化您的数据。我认为这是 bug 。良好的规范化需要小心,不能自动完成。