cross_val_score是否采用连续样本或随机样本?

时间:2017-11-22 10:00:37

标签: python machine-learning scikit-learn cross-validation

在这: cross_val_score(GaussianNB(),features,target,cv = 10)

我们是将数据随机分成10还是按顺序完成?

1 个答案:

答案 0 :(得分:0)

这取决于您在cv参数中指定的内容。

如果自变量是二元或多类,它将使用StratifiedKFold,否则它将使用KFold。您还可以通过指定函数(sklearn或其他)来覆盖选项以执行拆分。

KFold功能会将数据分成连续的折叠。如果要进行随机拆分,可以将shuffle参数设置为True。如果要修复随机shuffle,可以为random_state设置一个值。如果不这样做,它将采用随机值,并且每次运行该函数时折叠都会不同。

对于StratifiedKFold,它将分割数据,同时尝试在每个分割中保持相同的因变量类别比例。因此,每次调用该函数时都会有轻微的变化。即默认情况下不会是连续的。