为什么即使我事先设置了随机状态,cross_val_score仍然总是不同?

时间:2019-04-13 09:12:47

标签: python scikit-learn cross-validation random-seed scoring

我对机器学习非常陌生,最近遇到了一个我不确定的问题。当我在Jupyter Notebook中运行代码(如图所示)时,每次都会给我不同的分数,我不确定为什么吗?

我认为通过为KFold设置random_state或种子可以使cross_val_score每次给我相同的分数?

results = []
names = []

seed=12

for name, model in models:
    kfold = KFold(n_splits=num_folds, random_state=seed)
    cv_results = cross_val_score(model, X_train, y_train.ravel(), cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = '{}:  score: {:.2f},  std_dev:{:.2f}'.format(name, 
    cv_results.mean(), cv_results.std()) 
    print(msg)

一些示例输出:

LR:  score: -24.69,  std_dev: 19.74  
LASSO:  score: -29.82,  std_dev: 20.94  
EN:  score: -28.59,  std_dev: 19.79  
KNN:  score: -38.66,  std_dev: 28.77  
CART:  score: -16.42,  std_dev: 15.39  
SVR:  score: -60.53,  std_dev: 44.24  

第二次运行时使用相同的代码(也使用相同的种子):

LR:  score: -24.69,  std_dev: 19.74  
LASSO:  score: -29.82,  std_dev: 20.94  
EN:  score: -28.59,  std_dev: 19.79  
KNN:  score: -38.66,  std_dev: 28.77  
CART:  score: -18.65,  std_dev: 17.91  
SVR:  score: -60.53,  std_dev: 44.24

2 个答案:

答案 0 :(得分:1)

kfold = KFold(n_splits=num_folds, random_state=seed)中,我认为您需要添加shuffle = True,如果没有,默认情况下应添加shuffle = False,而random_state无效。

答案 1 :(得分:0)

sklearn中,decision treesrandom forests也取决于随机性,因此,您需要为这些估计量设置随机状态,以确保可重复性。

请注意,其他型号的分数相同。