机器学习+ Python:绘图验证曲线

时间:2018-10-09 09:04:59

标签: python scikit-learn cross-validation naivebayes sklearn-pandas

我想为我的朴素贝叶斯估计器绘制一条验证曲线:

http://scikit-learn.org/stable/auto_examples/model_selection/plot_validation_curve.html

我不明白什么是训练成绩。

有人可以向我解释吗?

1 个答案:

答案 0 :(得分:1)

培训分数是在培训过程中获得的分数。例如,当您呼叫类似yourmodel.fit(x_train, y_train)之类的东西时,在这种情况下为橙色线。在幕后,您的模型正在根据 y_train (您的标签/结果(例如下雨或不下雨))对 x_train 数据(您的功能,例如温度或湿度)进行预测)。 非常,该训练得分是根据您的模型得出的正确预测数计算得出的。例如,您的模型得分为0.9436 ..(大约94%),这意味着您的机器学习模型在94%的时间内输出了正确的决策。您经常会发现,在训练过程中,模型的得分倾向于高于测试集。您可以看到橙色线看起来好像是1.0,有效得分为100%,但交叉验证(测试)得分最高得分则在100%以下,这是比较常见的情况。

假设得分为1.0意味着您的模型是完美的,这很危险,这是过度拟合出现的地方,这在较高的水平上意味着您的模型过于紧贴您的训练数据,并且不能很好地推广到新数据。我建议您查看this以获得更多信息,Sci-Kit会发现网站上有很好的文档。