如何识别数据集中明显小于其他数据点的数据点?

时间:2014-03-31 13:22:43

标签: statistics

我有一组真正有价值的数据点。我希望识别那些值远远小于其他数据点的数据点。有没有众所周知的算法?

例如,数据集可以是{0.01,0.32,0.45,0.68,0.87,0.95,1.0}。我可以手动判断0.01明显小于其他人。但是,我想知道在统计领域有没有为此目的的分析方法?我在我的数据集中尝试了异常值检测,但它找不到任何异常值(例如将0.01检测为异常值)。

1 个答案:

答案 0 :(得分:0)

我删除了一段我写的解释使用zscores来解决你的问题,但这是不正确的,我希望下面的信息是准确的,以防万一,仅作为指南使用...

我们的想法是根据您正在测试的分数,减去测试分数来构建z分布,然后使用该分布获得测试分数的zscore。任何大于1.96的z都不太可能属于您的测试人群。

我不是因为你删除了你的考试分数而且这种方法是正常的。分布的影响,因此大分数将夸大zscores,因为它们有助于更大的方差(zscore方程中的分母)。

这可能是一个开始,直到有一点专业知识的人为我们做好准备:)

e.g。

for i = 1:length(data_set)
    test_score = data_set(i)  
    sample_pop = data_set(data_set~=test_score)
    sample_mean  = mean(sample_pop)
    sample_stdev = std(sample_pop)
    test_z(i) = (i-sample_mean)/sample_stdev
end

通过使用均值的暗淡输入,可以对更高的维度进行此操作。