我们正在开发大型电信数据集。当我们标准化数据时,我们得到了很大的z分数,它从-0.xxx变化到300或400! 这些属性例如min = 0和Max约4,000,000 是的,某些变量有异常值。我们会在没有处理异常值的情况下对聚类有很好的结果吗?
proc fastclus with 8 cluster的结果导致分组聚类(第七组有1,600,000个观测值),其中一个也有1个观察结果。
我们的问题是什么?
答案 0 :(得分:0)
您的变量可能非常倾斜。
对这些变量使用z标准化是值得怀疑的。您可能也应该研究box-cox转换。