我已经设置了我的第一个scikit-learn示例,我正试图衡量我的预测的准确性。我已经将训练和测试列表设置得很好,但即使我给它随机值,我的准确率也达到了0.95。
这看起来是因为我正在检查0/1标签,95%的标签是0,所以它猜测0并获得0.95准确度(我认为?)。显然这不是我想要的。
如何判断我的分类器是否正常工作,以及如何获得有意义的准确度值?
答案 0 :(得分:1)
你有一个明确的阶级不平衡问题。您的分类器始终预测0
,因为它知道95%的时间都是正确的。您可以通过调整拟合分类器上的predict(X_test)
来检查这一点。如果所有值均为0
,您就知道情况就是这样。
为了更好地了解模型的效果,您可以对标有1
的数据进行上采样,或者对标有0
的数据进行下采样。您可以使用此package构建scikit-learn并实现许多重新采样方法。或者,您可以使用scikit了解resampling方法。哪个会为你引导新的数据点。