在训练和训练上应用特征工程测试集

时间:2017-07-21 14:48:15

标签: r machine-learning kaggle

我有点困惑。我正在尝试进行数据科学竞赛(我的第一次,在类似于Kaggle的网站上)。我需要做一个分类。 我有训练集和测试集。非常经典。

我分析了数据,并从训练集中创建了一些新功能(包含大约4个附加列)。 然后我拿起训练集,并将其分成70/30,以便提取“新”训练集(原始训练集的70%)和“新”测试集(原始训练集的30%)。 我在“新”训练集上训练我的模型(使用xGboost),然后使用“新”测试集测试我的模型,并设法达到71%的准确度。

现在我的问题是,我想在竞赛的初始测试集上测试我的模型。但是,当我尝试平常时:

prediction <- predict(xgboost_3_cv_3, test_set_values)

它给我一个错误:eval中的错误(predvars,data,env):object等。 这基本上告诉我新功能无法识别,因为没有在inial测试集“test_set_values”中。 所以我无法提交我的预测...... 我错过了什么? 谢谢。

ML_Enthousiast

0 个答案:

没有答案