大的z得分值

时间:2018-06-18 23:40:36

标签: sas cluster-computing cluster-analysis k-means

我们正在开发大型电信数据集。当我们标准化数据时,我们得到了很大的z分数,它从-0.xxx变化到300或400! 这些属性例如min = 0和Max约4,000,000 是的,某些变量有异常值。我们会在没有处理异常值的情况下对聚类有很好的结果吗?

proc fastclus with 8 cluster的结果导致分组聚类(第七组有1,600,000个观测值),其中一个也有1个观察结果。

我们的问题是什么?

https://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_createdhttps://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_created

1 个答案:

答案 0 :(得分:0)

您的变量可能非常倾斜

对这些变量使用z标准化是值得怀疑的。您可能也应该研究box-cox转换。