我刚开始使用R并试图与Clara集群。我没有得到我所希望的结果,并且想知道在哪里可以找到算法实现的细节和必要的预处理?更具体地说,我想澄清一下:
Clara如何处理离散的名义数据?如果有5个类别,它会将其转换为5个二进制属性吗?
Clara首先运行PCA然后在主要组件上运行聚类,还是我经常看到的用于可视化目的的PCA数据?
非常感谢对算法的任何了解。
答案 0 :(得分:2)
欧几里德距离是根据数值定义的。
当您传递非数字数据时,需要来检查实现的功能。仔细检查,不要依赖来自第三方的模糊信息:这可能在不同版本中发生了变化。
三种明显的方法:
我怀疑CLARA会自动规范化您的数据。我认为这是 bug 。良好的规范化需要小心,不能自动完成。