丢失记录的可能数量

时间:2016-07-19 17:07:16

标签: probability

在我正在审查的问题中,我很难掌握概率假设。

假设:

  • 数据集中的每条记录都有唯一的交易ID号(TXNID)
  • TXNID之间的增量变化可根据交易时间预测(具体方法与问题无关)
  • 由于增量更改是可预测的,因此我们可以确定两个连续TXNID之间是否缺少记录。具体地,如果两个连续TXNID之间的差异大于预测的增量变化,则缺少至少一个记录
    • 两个TXNID之间的增量始终是1到20之间的整数(包括)
    • 存在等概率,任何1到20的增量都会出现

如果发现这种差距,我们希望估计记录中缺失的数量。

例如:

    Previous TXNID: 100 (given)
    Current TXNID: 125 (given)
    Predicted increment: 5 (given)
    Actual increment: 25 (current - previous)

实际增量大于预测增量,因此我们知道至少缺少一条记录。

我们还知道,一条缺失记录的TXNID等于当前TXNID - 5.剩余差距内的估算记录是问题的焦点。

   Remaining gap: 20 (actual increment - predicted increment)

我们希望估计的是剩余差距中缺失记录的数量。在这个例子中,丢失的记录可以包括增量为20的单个记录,增量为1的20个记录,或这些极端值之间的任何相关组合。

    20 = 20 x 1
    ...
    20 = 1 x 20

作者提出,因为存在相等的概率,即每个TXNID增量在1和20之内,剩余差距的5%(1/20)是对丢失记录数量的实际估计。

以非常有限的方式对此进行测试后,假设似乎有效;但是,我正在努力理解每个场景具有相同概率的逻辑。

我同意单个记录的增量为20(场景1 x 20)的概率为1/20(5%)。但对于相反的情况(20 x 1),不应该是概率化合物吗?在这里,我不仅要求单个记录的增量为1(概率为5%),而且接下来的19个记录也是1.因此,似乎剩余缺口中存在20个缺失记录的概率明显减少(0.05 ^ 20对0.05)。

我在想这个吗?我错过了一点吗?对剩余差距应用5%是否有意义作为估计遗失记录数量的手段?

由于

安德鲁

1 个答案:

答案 0 :(得分:1)

坦率地说,我会从不同的角度来解决这个问题。我假设记录来自Poisson stream。因此,记录之间的差异根据泊松分布分布。

如果确实如此,您可以估算泊松参数\lambda,并估算记录之间任意给定距离的平均记录数量