使用数据库中适合的XGBoost模型对新数据库进行预测

时间:2020-11-06 01:53:09

标签: python database machine-learning regression xgboost

我有一个数据库,已将其分为训练和测试数据集,在火车集合上拟合了XGBoost模型,并使用测试集合上的拟合模型进行了预测。到目前为止,一切都很好。

现在,如果我保存拟合的模型并想在全新的数据集上使用它进行预测,那么我的新数据库应该是什么样?

它必须包含确切数量的功能吗?

两个数据库中的分类功能必须具有相同的类别吗?

1 个答案:

答案 0 :(得分:1)

我认为,您正在使用一种热编码方式来说色彩特征?

因此从技术上讲,为避免测试数据中出现额外或新的特征,您应该使用Train + test数据来形成特征向量。

  1. 对整个训练和测试数据集进行一次热编码/特征化。现在,将training-datasettesting-dataset分开。
  2. 让我们说[v1,v2,v3 ... vn]是火车+测试数据中的功能名称列表。
  3. 现在使用此功能名称来形成训练数据。如预期的那样,与训练数据中的第5种颜色相对应的特征列将全部为零and THATS FINE
  4. 使用相同的功能列表作为测试数据,现在您不应该在新功能方面出现任何差异。

希望如此。