每次我使用random_state设置运行sklearn模型时得分不同

时间:2017-09-13 21:12:34

标签: python-3.x scikit-learn scoring random-seed

我试图确定为什么每次重新运行模型时我得到的分数都略有不同。我已定义:

# numpy seed (don't know if needed, but figured it couldn't hurt)
np.random.seed(42)
# Also tried re-seeding every time I ran the `cross_val_predict()` block, but that didn't work either

# cross-validator with random_state set
cv5 = KFold(n_splits=5, random_state=42, shuffle=True)

# scoring as RMSE of natural logs (to match Kaggle competition I'm trying)
def custom_scorer(actual, predicted):    
    actual = np.log1p(actual)
    predicted = np.log1p(predicted)
    return np.sqrt(np.sum(np.square(actual-predicted))/len(actual))

然后我用cv=cv5

运行一次
# Running GridSearchCV
rf_test = RandomForestRegressor(n_jobs = -1) 
params = {'max_depth': [20,30,40], 'n_estimators': [500], 'max_features': [100,140,160]} 
gsCV = GridSearchCV(estimator=rf_test, param_grid=params, cv=cv5, n_jobs=-1, verbose=1) 
gsCV.fit(Xtrain,ytrain)
print(gsCV.best_estimator_)

在运行gsCV.best_estimator_之后,我重新运行了几次,每次得分略有不同:

rf_test = gsCV.best_estimator_
rf_test.random_state=42
ypred = cross_val_predict(rf_test, Xtrain, ytrain, cv=cv2)
custom_scorer(np.expm1(ytrain),np.expm1(ypred))

(极小)得分差异的例子:

0.13200993923446158
0.13200993923446164
0.13200993923446153
0.13200993923446161

我试图设置种子,因此每次为同一型号获得相同的分数,以便能够比较不同的模型。在Kaggle比赛中,分数的微小差异似乎很重要(尽管不是很小),但我只是想了解原因。在执行计算时,它与我的机器中的舍入有关吗?非常感谢任何帮助!

修改:我忘记了rf_test.random_state=42这一行在分数差异方面产生了更大的差异,但即使包含这一行,我仍然有微小的差异。

2 个答案:

答案 0 :(得分:1)

您在测试RandomForest回归程序时正在使用cv2。你也设置了它的随机种子吗?否则,在测试你的回归量时,分裂会有所不同。

答案 1 :(得分:0)

随机森林,是一组决策树,它使用随机性来选择这些树的高度和分割。当你运行程序两次时,你不可能获得相同的随机森林。我想,由于它,你会得到这种微小的变化。