我有一个数据库,已将其分为训练和测试数据集,在火车集合上拟合了XGBoost模型,并使用测试集合上的拟合模型进行了预测。到目前为止,一切都很好。
现在,如果我保存拟合的模型并想在全新的数据集上使用它进行预测,那么我的新数据库应该是什么样?
它必须包含确切数量的功能吗?
两个数据库中的分类功能必须具有相同的类别吗?
答案 0 :(得分:1)
我认为,您正在使用一种热编码方式来说色彩特征?
因此从技术上讲,为避免测试数据中出现额外或新的特征,您应该使用Train + test数据来形成特征向量。
training-dataset
和testing-dataset
分开。and THATS FINE
希望如此。