我正在与this ppt学习。从第22页开始,它显示了如何使用EM算法用最可能的值填充丢失的数据。我设法理解了这一点,但是我开始怀疑如何填充2个丢失的数据。如果仅缺少字段B中的2个数据,我可以看到如何计算它。但是,如果在A和B字段中都缺少一个数据怎么办?对ppt的计算是在假设A上的数据确定的情况下进行的,但在这种情况下不是...有人可以解释一下吗?
答案 0 :(得分:0)
如果要在A和B上都缺少值,则需要一些其他隐藏变量。 更准确地说:
假定您有4个隐藏变量H1,H2,A'和B',其值分别为{0,1},这将生成以下观察值(A,B):
并假定(A',B')独立于(H1,H2)。因此,您的模型是由(A',B')的联合分布和(H1,H2)的联合分布参数化的。
现在要学习模型,您可以像以前一样运行EM,唯一的区别是隐藏变量H现在被A',B',H1和H2扩展了。学习完模型后,您可以用最可能的对(根据模型的分布)填充缺失的观察对。