我有一个数据集。它的生物材料。我已经放入了我的标准偏差,我可以看到我的所有数据条2数据点都在平均值的3sd内。 是否接受位于均值3sd内的数据点在正常变化范围内? 或者是依赖于数据的范围和分散?我不是数学家。如果我有一个控制过程,只是有人试图解决。我一直都知道3sd代表95%的数据,因此其中的数据在正态分布范围内,不值得研究。但是我经常被要求根据图表的外观调查2sd内的数据!
当使用标准偏差时,应该何时将数据调查为异常?
非常感谢您的任何帮助
答案 0 :(得分:1)
您应该查看68–95–99.7 rule。
如果您的数据遵循正态分布,大约95%(95.45%)的数据将与平均值相差两个标准偏差。如果数据遵循另一个分布,您可以通过Chebyshev's inequality说至少75%的数据必然落在两个标准偏差之内。假设正态分布,大约99.7%(99.73%)的数据将落在平均值的三个标准差内。如果不是正态分布,那么至少89%(88.8888%)会落在那里。
请注意,即使您的数据遵循正态分布,机会(抽样错误)也会使这些百分比不是这样。
因此数字取决于您的数据,尤其是数据的分布类型和数据点的数量。如果您有1000个数据点,您仍将获得3个标准偏差之外的约3个点。