我有一个二进制分类问题,因为它相对简单,所以我有一些很棒的功能可以预测几乎100%的测试数据。
但是,根据问题的性质要求,我绝不愿意犯错误(比如说),因此,我不想给出不确定的预测,而是希望将输出作为概率,设置一个阈值,然后能够说:“如果我的肯定性低于%95,我会称其为“不确定”并采取相应措施”。说“我不知道”胜过犯错会更好。
到目前为止很好。
为此,我尝试了高斯贝叶斯分类器(具有连续功能)和Logistic回归算法,这些算法为我提供了分类的概率以及预测。
遇到我的问题:
GBC的成功率约为99%,而Logistic回归的成功率较低,约为96%。因此,我自然会更喜欢使用GBC。 但是,就像GBC一样成功,它也很确定自己。我得到的赔率是1或非常接近1,例如0.9999997,这使我很难接受,因为在实践中,GBC现在不提供给我概率。
后勤回归的效果不佳,但至少提供了更好和更多的“合理”赔率。
作为我的问题的本质,错误分类的成本是2的幂,因此,如果我对4个产品进行错误分类,则会多损失2 ^ 4(这是单位数,但无论如何都会给出想法)。
最后;我希望能够进行比Logistic回归更高的分类,而且还能够具有更多的概率,因此我可以设置一个阈值并指出不确定的阈值。
有什么建议吗?
谢谢。
答案 0 :(得分:1)
如果有足够的数据,则可以简单地重新调整概率。例如,给定高斯分类器的“预测概率”输出,您可以返回(在保留的数据集上),并以不同的预测值估算正分类的概率。
此外,您可以简单地对保持集进行优化以确定最佳阈值(而无需实际估计概率)。由于它是一维的,因此您甚至不需要做任何优化工作-可以测试500个不同的阈值,然后选择一个可以最大程度降低与错误分类相关的成本的阈值。