我有一个训练数据集,由14个由空格分隔的整数组成。每个数字是1(一)或2(两)。第i个数字可以理解为存在相应的特征。一个意味着错误,两个意味着真实。训练数据集如下所示:
1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 2 1 1 1 1 1 1 1
1 2 1 2 1 1 2 1 1 1 1 1 1 1
1 2 1 2 1 1 2 1 1 1 1 1 1 1
1 2 1 2 1 1 2 1 1 1 1 1 1 1
1 2 1 2 1 1 2 1 1 1 1 1 1 1
测试数据集包含10000行,表示缺少某些数据的样本。这由零表示,每行一个。测试数据如下所示:
1 1 1 1 1 1 1 1 1 1 1 1 0 1
0 2 1 2 1 1 2 1 1 1 1 1 1 1
1 2 1 0 1 1 2 1 1 1 1 1 1 1
1 1 1 1 1 1 0 1 1 1 1 1 1 1
2 2 2 0 1 1 2 1 1 1 1 1 1 1
我对机器学习很新,我想知道一种预测那些缺失值的方法。我知道在scikit中学习有一个类调用Imputer
,它允许你找到那些缺失的值。但它不使用任何列车数据。如果有人可以给我一些解决这个问题的点数,那就太棒了