验证RandomizedSearchCV结果的问题

时间:2019-07-14 04:15:45

标签: scikit-learn logistic-regression best-fit

I start with a basic Logistic Regression,使用所有默认的超参数。而我得到0.8855的分数

Question接下来,我运行RandomSearch来查找最佳的超参数。根据RandomSearch,C = 10,Max_iterations = 110,得分为0.89

我使用这些超级参数运行逻辑运算,但获得了更好的准确度0.91!

为什么我的电话号码不完全相同?

1 个答案:

答案 0 :(得分:0)

当您在火车集中再次运行它时,您绝对不会获得相同的准确性,这是因为当您进行k倍交叉验证以检查一组特定的超参数的性能时,会将整个数据划分为k套,并使用k-1套进行训练,并在左边的一套上进行验证。然后您重复此过程k次,每次您使用不同的数据集进行验证。最后,您计算所有k迭代的平均值并报告您在random_result.best_score_中获得的准确性,下图说明了过程enter image description here

现在,在获得最佳的超参数集之后,您将其适合整个训练数据,即集合1,集合2和集合3,因此由于数据已更改并且您正在评估,因此现在容易出现一些变化。整个火车数据。因此,您观察到的是完全正常的现象和通常的行为。

希望这会有所帮助!