训练数据包含所有缺失值的列,但测试数据中的相同列有一些值,如何处理这种情况?

时间:2017-11-16 07:25:47

标签: machine-learning missing-data cross-validation imputation

我已经分别获得了培训和测试数据集。两个数据集具有完全相同的结构(相同的列/特征)。训练数据集中的某些列在所有行中都缺少值。如果我想构建一个预测模型,我可以简单地删除这些列,因为它们根本没有提供任何信息!但问题是这些相同的列在测试数据集中有一些值。因此,如果我从训练数据集中删除这些列,我将不得不从测试数据集中删除它们。我也可以这样做,但问题是这些列的数量非常大(总共250列中的150个)。删除这些列时我非常犹豫。保留这些列的任何想法或解决方案都非常有用。谢谢!

1 个答案:

答案 0 :(得分:0)

如果您的火车/测试数据被适当地拆分,那么一个中无用的列在另一个中是无用的

或者,您可以尝试插入缺失的数据