使用受限玻尔兹曼机器推断缺失数据

时间:2013-09-12 12:30:45

标签: machine-learning neural-network missing-data netflix rbm

类似于netflix竞赛,假设我们有一个缺少评级的电影数据集。如何修改RBM以允许它推断缺失值?在相关论文中,一种直接的方法是将随机值归入缺失的可见特征。但是,我对重建精度持怀疑态度,因为它可能取决于给这些缺失的可见节点的初始值。

你有什么建议?

由于

3 个答案:

答案 0 :(得分:2)

https://www.youtube.com/watch?v=laVC6WFIXjg,也许这段视频会有所帮助。

我认为在输入随机值后进行采样是一个好主意。 Hinton在这段视频中证明了这一点。您也可以尝试估计先前,或做许多样本,或根据一些不同的方法进行猜测,然后进行重建。

在视频中,Hinton说这种方法本身并不是很准确,但是当与矩阵分解(或其他类似方法)相结合时,可能会非常强大。

答案 1 :(得分:1)

这个想法是执行交替的吉布斯采样,但是在重建更新中将非缺失值固定为数据值。这样做直到缺失的值在他们的马尔可夫链中达到静止分布,并且你知道网络对他们应该是什么的最佳猜测。

答案 2 :(得分:1)

实际上,对这些缺失的可见节点的初始值的依赖性可用于获得额外2-5%的准确度。您可以在不同的初始化下多次运行RBM,然后对结果取平均值。每个结束状态都会出错,但它们彼此之间会有所不同。我尝试了它,并一直在改进它,直到+/- 20初始化......