我有一组真正有价值的数据点。我希望识别那些值远远小于其他数据点的数据点。有没有众所周知的算法?
例如,数据集可以是{0.01,0.32,0.45,0.68,0.87,0.95,1.0}。我可以手动判断0.01明显小于其他人。但是,我想知道在统计领域有没有为此目的的分析方法?我在我的数据集中尝试了异常值检测,但它找不到任何异常值(例如将0.01检测为异常值)。
答案 0 :(得分:0)
我删除了一段我写的解释使用zscores来解决你的问题,但这是不正确的,我希望下面的信息是准确的,以防万一,仅作为指南使用...
我们的想法是根据您正在测试的分数,减去测试分数来构建z分布,然后使用该分布获得测试分数的zscore。任何大于1.96的z都不太可能属于您的测试人群。
我不是因为你删除了你的考试分数而且这种方法是正常的。分布的影响,因此大分数将夸大zscores,因为它们有助于更大的方差(zscore方程中的分母)。
这可能是一个开始,直到有一点专业知识的人为我们做好准备:)
e.g。
for i = 1:length(data_set)
test_score = data_set(i)
sample_pop = data_set(data_set~=test_score)
sample_mean = mean(sample_pop)
sample_stdev = std(sample_pop)
test_z(i) = (i-sample_mean)/sample_stdev
end
通过使用均值的暗淡输入,可以对更高的维度进行此操作。