我可以使用标准差分析来识别具有数值的列的异常值。但是基于离散/文本的值呢?
例如,值是"蓝"在这种情况下的异常值? 表X中的8条记录,其值为"紫色" 表X中的5条记录,其值为"红色" 表X中的3条记录的值为"绿色" 表X中的2条记录,其值为"蓝色" 在这种情况下,我的观点是否定的,"蓝色"不是异常值。
使用另一个例子: 表X中的451条记录的值为"紫色" 表X中的345条记录的值为"红色" 表X中的233条记录的值为"绿色" 表X中的2条记录,其值为"蓝色" 在这种情况下,"蓝"肯定是异常值。这并不是说它必然是无效的,只是在人迹罕至的道路上。
如果可能的话,我希望提出的是:" Blue"得到标记,因为它的出现频率是平均值的3个标准差...
答案 0 :(得分:0)
这不完全是你所要求的,但你可以使用卡方拟合优度测试来比较你的分布与另一个分布(可能是你知道的或你假设的分布)。 http://stattrek.com/chi-square-test/goodness-of-fit.aspx