结合相关概率

时间:2013-10-16 09:59:32

标签: statistics

我需要计算L和D出现P(L,D)的概率,但它们不是相互独立的。我用两个不同的模型估计了P(L)和P(D)的概率,我也知道P(L | D)和P(D | L)。据我所知,我有两种不同的P(L,D)估计值:

P(L) * P(D|L) and 
P(D) * P(L|D)
我最好只是对这两个估计值求平均P(L,D)?

1 个答案:

答案 0 :(得分:1)

这两种计算联合分布的方法应该在数值精度范围内相同。如果您的算法为这两种方式提供了不同的答案,则代码中存在错误。

对于一对二进制变量,您需要做的就是保持出现次数 四个结果中的每一个:(L,D), (!L,D), (L,!D), (!L,!D)。 如果我们让Z=N(L,D)+N(!L,D)+N(L,!D)+N(!L,!D)

那么你关心的概率就是:

P(L,D)=N(L,D)/Z

其他(边际,有条件)概率是:

P(L)=[N(L,D)+N(L,!D)]/Z
P(D)=[N(L,D)+N(!L,D)]/Z

P(L | D ) = N(L,D)/[ N(L,D)+N(!L,D)]
P(D | L ) = N(L,D)/[ N(L,D)+N(L,!D)]

使用小代数,您可以看到P(L|D)P(D)=N(L,D)/Z=P(D|L)P(L)

这指出了如何将不同的估计值合并为一个:将它们转换回“计数”,然后添加这些计数。可能发生这种情况的情况是,我们有两个独立的样本S1S2。假设你估计了 来自示例P(L |D ), P(D)的{​​{1}}和来自示例S1的{​​{1}}。此外 根据概率,我们需要知道每个样本中样本数的计数:P(D |L), P(L)。注意:结果仅取决于比率S2,因此如果您没有计数,但知道样本大小始终相同,则可以在后面的内容中替换N1,N2

N1/N2

N1=N2=1的情况下,只是平均它们;但这只适用于样本量相同的特殊情况;否则结果是加权平均值。

这是比尔对this question on CrossValidated的回答的简化版本,该回答处理估算人可能相关和/或涉及估算除经验概率之外的数量的情况。