基于数据的缺失值估计

时间:2015-04-27 20:28:18

标签: machine-learning statistics regression correlation missing-data

我手头有问题,我觉得应该有一个相当优雅的解决方案,但是在这一点上,我在找到正确的搜索术语或朝着正确的方向迈出第一步时遇到了问题。

基础: 我有一个D = 19的高维数据空间,在空间中有大约100个点(100次测量)。使用PCA和维数估计算法,我已经确认点所在的潜在空间是相对较低的维度(最多5个维度左右)。因此,我认为一般来说,我所要求的并非不可能。

问题: 现在,基于新点的不完整测量,我想估计缺失值。问题是我不知道哪些值会丢失。基本上所有缺失值的组合(在某种程度上)都可能相似。 - >我可能有1个缺失值,19个缺失值或介于两者之间的东西。在一个完美的世界中,我正在寻找的算法不仅给出了缺失值的估计,还给出了一些误差测量。

为了进一步说明,我用原始数据附上一张图片。 x轴显示19个单独的测量参数,y轴给出这些参数的值。您可以看到测量值高度相关。因此,即使我只指定一个测量/尺寸,我也应该能够对其余部分进行一定程度的可靠估计。 The x-axis shows the 19 individual measured parameters and the y axis gives the values of those parameters. You can see that the measurements are highly correlated. enter image description here

你们有没有人对我有任何指示?任何想法或建议都会非常有用! 谢谢, 托马斯

1 个答案:

答案 0 :(得分:0)

处理缺失数据的正确方法(TM)是在给定任何已知变量的值的情况下对缺失变量进行平均(即,积分)。贝叶斯信念网络是这种观念的形式化。如果你可以更多地谈论变量是什么,我可以说更多关于如何建立一个合适的信念网络。