Question

我有一组真正有价值的数据点。我希望识别那些值远远小于其他数据点的数据点。有没有众所周知的算法？

例如，数据集可以是{0.01,0.32,0.45,0.68,0.87,0.95,1.0}。我可以手动判断0.01明显小于其他人。但是，我想知道在统计领域有没有为此目的的分析方法？我在我的数据集中尝试了异常值检测，但它找不到任何异常值（例如将0.01检测为异常值）。

Answer 1

我删除了一段我写的解释使用zscores来解决你的问题，但这是不正确的，我希望下面的信息是准确的，以防万一，仅作为指南使用...

我们的想法是根据您正在测试的分数，减去测试分数来构建z分布，然后使用该分布获得测试分数的zscore。任何大于1.96的z都不太可能属于您的测试人群。

我不是因为你删除了你的考试分数而且这种方法是正常的。分布的影响，因此大分数将夸大zscores，因为它们有助于更大的方差（zscore方程中的分母）。

这可能是一个开始，直到有一点专业知识的人为我们做好准备：）

e.g。

for i = 1:length(data_set)
    test_score = data_set(i)  
    sample_pop = data_set(data_set~=test_score)
    sample_mean  = mean(sample_pop)
    sample_stdev = std(sample_pop)
    test_z(i) = (i-sample_mean)/sample_stdev
end

通过使用均值的暗淡输入，可以对更高的维度进行此操作。

如何识别数据集中明显小于其他数据点的数据点？

1 个答案: