离群分析/频率分布

时间:2015-05-06 13:18:11

标签: sql statistics

我可以使用标准差分析来识别具有数值的列的异常值。但是基于离散/文本的值呢?

例如,值是"蓝"在这种情况下的异常值?   表X中的8条记录,其值为"紫色"   表X中的5条记录,其值为"红色"   表X中的3条记录的值为"绿色"   表X中的2条记录,其值为"蓝色" 在这种情况下,我的观点是否定的,"蓝色"不是异常值。

使用另一个例子:   表X中的451条记录的值为"紫色"   表X中的345条记录的值为"红色"   表X中的233条记录的值为"绿色"   表X中的2条记录,其值为"蓝色" 在这种情况下,"蓝"肯定是异常值。这并不是说它必然是无效的,只是在人迹罕至的道路上。

如果可能的话,我希望提出的是:" Blue"得到标记,因为它的出现频率是平均值的3个标准差...

1 个答案:

答案 0 :(得分:0)

这不完全是你所要求的,但你可以使用卡方拟合优度测试来比较你的分布与另一个分布(可能是你知道的或你假设的分布)。 http://stattrek.com/chi-square-test/goodness-of-fit.aspx