为什么良好的本地验证会给Kaggle比赛带来不好的分数?

时间:2017-12-15 19:43:34

标签: python data-analysis cross-validation data-science kaggle

这可能是一般性问题。

我试图在Kaggle比赛中建立一个预测模型。我使用了一些传统方法,如Xgboost Lightgbm和Random Forest。我试图将列车数据拆分为7:3进行训练和验证。

X_train, X_vali, Y_train, Y_vali = cross_validation.train_test_split\
     (x_train, y_train, test_size=0.3, random_state=42);

然后构建模型并测试参数是否最佳。

model = Model.fit(x_train,y_train)
print(log_loss(y_true=Y_vali,y_pred=model.predict_proba(X_vali)))

一切运作良好,但我在最终提交时得分很差。似乎更糟糕的验证结果甚至在Kaggle的内核上得到了更好的分数(我觉得这似乎不是一个过度拟合的问题)。我不知道如何优化我的模型,因为Kaggle结果似乎无法预测。

有人知道为什么会出现这个问题吗?

0 个答案:

没有答案