R聚类分析Ward自动删除异常值

时间:2015-04-11 17:42:14

标签: r cluster-analysis outliers

如何在R中编码以复制在SAS中完成的聚类分析 method = Ward和TRIM = 10选项自动删除10%的案例作为异常值? (此数据集有45个变量,每个变量都有一些异常响应。)

当我使用Ward的方法搜索R聚类分析时,修剪选项被描述为缩短名称而不是删除异常值的东西。

如果我在聚类分析之前没有修剪数据集,那么就会出现一个大型集群,其中包含大量单例"集群"代表外围个人。随着10%的外围案例被自动删除,出现了3或4个有意义的集群。根据具体情况,我有太多的变量和案例可以删除异常值。

谢谢!

1 个答案:

答案 0 :(得分:0)

您尚未提供有关如何识别异常值的任何信息。假设最简单的情况是删除每个变量的顶部和底部5%的情况(即基于变量的变量),您可以使用quantile函数执行此操作。

使用上面链接中的示例进行说明,您可以执行以下操作:

duration = faithful$eruptions
duration[duration <= quantile(duration,0.95) & duration > quantile(duration,0.05)]