应用错误收集

训练数据包含所有缺失值的列，但测试数据中的相同列有一些值，如何处理这种情况？

时间：2017-11-16 07:25:47

标签： machine-learning missing-data cross-validation imputation

我已经分别获得了培训和测试数据集。两个数据集具有完全相同的结构（相同的列/特征）。训练数据集中的某些列在所有行中都缺少值。如果我想构建一个预测模型，我可以简单地删除这些列，因为它们根本没有提供任何信息！但问题是这些相同的列在测试数据集中有一些值。因此，如果我从训练数据集中删除这些列，我将不得不从测试数据集中删除它们。我也可以这样做，但问题是这些列的数量非常大（总共250列中的150个）。删除这些列时我非常犹豫。保留这些列的任何想法或解决方案都非常有用。谢谢！

1 个答案:

答案 0 :(得分：0)

如果您的火车/测试数据被适当地拆分，那么一个中无用的列在另一个中是无用的

或者，您可以尝试插入缺失的数据