一组值的累积分布函数

时间:2012-10-23 09:08:42

标签: function distribution probability cdf

我有一个直方图,其中我计算一个函数在0.8和2.2范围内采用特定值的出现次数。

我想获得这组值的累积分布函数。在每个特定值之前计算总出现次数是否正确。

例如,0.9的cdf将是所有出现的总和,从0.8到0.9?

这是对的吗?

谢谢

1 个答案:

答案 0 :(得分:0)

通过条目数量标准化的总和将给出cdf的估计值,是的。它将与直方图准确表示pdf一样准确。如果你想在除bin端点之外的任何地方评估cdf,那么包含一小部分计数是有意义的,这样如果你有断点b_i和b_j,那么在某个时刻评估cdf b_i< p< b_j你应该从相关的单元格中添加计数分数(p - b_i)/(b_j-b_i)。基本上,这假设细胞内的密度均匀。

你也可以从基础值中得到cdf的估计值(基于你的问题,我不太确定你有什么权限,它的bin是直方图还是实际值)。请注意,这样做会在每个数据点上给出您的CDF不连续性(步骤),因此请考虑您是否有足够的,以及您使用CDF的是什么,以确定这是否合适。

作为警告的最后一点,请注意,在观察值范围之外评估cdf将给出估计的零或一的概率(x <0.8时为零,x> 2.2时为1)。您应该考虑该函数是否真正受限于该区间,如果不是,则采用一些平滑来确保在观测值范围之外的少量概率质量。