我已经分别获得了培训和测试数据集。两个数据集具有完全相同的结构(相同的列/特征)。训练数据集中的某些列在所有行中都缺少值。如果我想构建一个预测模型,我可以简单地删除这些列,因为它们根本没有提供任何信息!但问题是这些相同的列在测试数据集中有一些值。因此,如果我从训练数据集中删除这些列,我将不得不从测试数据集中删除它们。我也可以这样做,但问题是这些列的数量非常大(总共250列中的150个)。删除这些列时我非常犹豫。保留这些列的任何想法或解决方案都非常有用。谢谢!
答案 0 :(得分:0)
如果您的火车/测试数据被适当地拆分,那么一个中无用的列在另一个中是无用的
或者,您可以尝试插入缺失的数据