新元模型“过度自信”

时间:2013-02-11 20:40:01

标签: machine-learning classification mahout

我正在使用Apache Mahout处理二进制分类问题。我使用的算法是OnlineLogisticRegression,我目前所拥有的模型强烈倾向于产生1或0而没有任何中间值的预测。

请建议一种方法来调整或调整算法,使其在预测中产生更多中间值。

提前致谢!

2 个答案:

答案 0 :(得分:5)

分类器的测试错误率是多少?如果它接近零,那么自信是一个特征,而不是一个错误。

如果测试错误率很高(或至少不低),则分类器可能过度拟合训练集:测量训练错误和测试错误之间的差异。在这种情况下,正如rrenaud所建议的那样增加正规化可能会有所帮助。

如果您的分类器没有过度拟合,那么概率校准可能存在问题。逻辑回归模型(例如使用对数链接函数)应该产生足够好的概率校准(如果问题近似线性可分,并且标签不太嘈杂)。您可以使用this paper中所述的图来检查概率的校准。如果这确实是一个校准问题,那么基于Platt缩放或等张回归实现自定义校准可能有助于解决问题。

答案 1 :(得分:2)

通过阅读Mahout AbstractOnlineLogisticRegression文档,您可以控制正则化参数lambda。增加lambda应该意味着你的权重更接近于0,因此你的预测更加对冲。