如果我知道样本量为449,平均值为81.69,中位数为81.68,第30百分位数为79.43,第90百分位数为85.06,我如何估计分布?
答案 0 :(得分:3)
样本的大小与此问题无关(在计算置信区间时可能有用)。你需要处理的是三个分位数(平均值,第30和第90)。由于中位数几乎与均值相同,因此暗示您的分布很可能是对称的。在那之后,你几乎死路一条。您可以将这些数据点拟合为高斯,或超高斯(或任何exp(x ^ 4))或任意数量的衰减对称分布。
答案 1 :(得分:3)
具有已知均值和方差的最高熵分布是正态分布,只要数据与其不一致,我们就可以在此使用它。现在使用给定的平均值并将标准差估计为:
q30 <- 79.43
q90 <- 85.06
SD <- (q90 - q30) / (qnorm(.9) - qnorm(.3))
我们得到正态分布,平均值为81.69,标准差为SD
。在这里我们使用了我们给出的平均值,只是注意到中位数几乎与平均值相同并不与正态分布不一致,我们使用剩余的两个分位数来估计标准差。