应用错误收集

用EM算法填充多个丢失的数据

时间：2018-12-10 14:15:05

标签： algorithm probability

我正在与this ppt学习。从第22页开始，它显示了如何使用EM算法用最可能的值填充丢失的数据。我设法理解了这一点，但是我开始怀疑如何填充2个丢失的数据。如果仅缺少字段B中的2个数据，我可以看到如何计算它。但是，如果在A和B字段中都缺少一个数据怎么办？对ppt的计算是在假设A上的数据确定的情况下进行的，但在这种情况下不是...有人可以解释一下吗？

1 个答案:

答案 0 :(得分：0)

如果要在A和B上都缺少值，则需要一些其他隐藏变量。更准确地说：

假定您有4个隐藏变量H1，H2，A'和B'，其值分别为{0，1}，这将生成以下观察值（A，B）：

如果H1 = 0，则A = A'，否则，则A ='H'
B = B'（如果H1 = 0，否则B ='H'

并假定（A'，B'）独立于（H1，H2）。因此，您的模型是由（A'，B'）的联合分布和（H1，H2）的联合分布参数化的。

现在要学习模型，您可以像以前一样运行EM，唯一的区别是隐藏变量H现在被A'，B'，H1和H2扩展了。学习完模型后，您可以用最可能的对（根据模型的分布）填充缺失的观察对。