假设我们的记录包含与我们尝试预测的目标号码相关的若干功能。所有记录都遵循相同的一般基础模式,并且RandomForestRegressor
可以很好地学习。现在让我们说所有记录都添加了一个分类特征,可以将其编码为附加信息,以提高模型的预测能力。到目前为止,非常好。
但现在让我们说我们想要使用我们的对数据进行过培训的回归量,包括分类功能来预测带有新类别的记录没有在培训数据中表示。在这种情况下,分类信息是否变得无用(或者更糟?)是否应该重新训练模型而没有可用的分类信息以获得最佳的泛化性能(因为它之前已经适合不在此数据集中的类别)?或者,是否有一些可能的方法来了解培训数据中的类别成员资格可以提高样本外类别的预测能力?
答案 0 :(得分:1)
如果这些集合没有交集,则不应包含该变量。如果您希望在测试数据中看到一些原始值,那么您应该使用它。