在我正在审查的问题中,我很难掌握概率假设。
假设:
如果发现这种差距,我们希望估计记录中缺失的数量。
例如:
Previous TXNID: 100 (given)
Current TXNID: 125 (given)
Predicted increment: 5 (given)
Actual increment: 25 (current - previous)
实际增量大于预测增量,因此我们知道至少缺少一条记录。
我们还知道,一条缺失记录的TXNID等于当前TXNID - 5.剩余差距内的估算记录是问题的焦点。
Remaining gap: 20 (actual increment - predicted increment)
我们希望估计的是剩余差距中缺失记录的数量。在这个例子中,丢失的记录可以包括增量为20的单个记录,增量为1的20个记录,或这些极端值之间的任何相关组合。
20 = 20 x 1
...
20 = 1 x 20
作者提出,因为存在相等的概率,即每个TXNID增量在1和20之内,剩余差距的5%(1/20)是对丢失记录数量的实际估计。
以非常有限的方式对此进行测试后,假设似乎有效;但是,我正在努力理解每个场景具有相同概率的逻辑。
我同意单个记录的增量为20(场景1 x 20)的概率为1/20(5%)。但对于相反的情况(20 x 1),不应该是概率化合物吗?在这里,我不仅要求单个记录的增量为1(概率为5%),而且接下来的19个记录也是1.因此,似乎剩余缺口中存在20个缺失记录的概率明显减少(0.05 ^ 20对0.05)。
我在想这个吗?我错过了一点吗?对剩余差距应用5%是否有意义作为估计遗失记录数量的手段?
由于
安德鲁
答案 0 :(得分:1)
如果确实如此,您可以估算泊松参数\lambda
,并估算记录之间任意给定距离的平均记录数量