我正在进行研究,我想提出一种方法,拒绝对测试数据的某些常量部分进行分类(例如,20%,五分之一的分类可以回答为“我不确定”算法)。我们的想法是拥有一种算法,可以有效地选择哪些分类最可能是错误的,并拒绝回答它们(为了提高整体准确性)。
我想知道是否有任何通用的机器学习方法(使用分类器的独立性)来实现这一目标?
任何答案都会有所帮助,谢谢。
答案 0 :(得分:1)
我知道您可以向神经网络添加一个名为拒绝输出的特殊输出。有关here.
的详细信息但要小心,我认为这样的输出只对大数据集有意义;在小数据集中,你不知道一个似乎是异常值的特定个体是否会成为更大数据集中类的一部分。
答案 1 :(得分:1)
逻辑回归分类器将输出示例属于正或负类别的概率。在这种情况下,设置阈值以标记示例“未知”将起作用。例如,任何返回< .6概率为正或负的东西都可以标记为未知。
另一种海报建议的另一种方法是将问题视为排名问题。线性分类器(如SVM和逻辑回归)输出示例与分离超平面的距离。您可以使用此距离的绝对值对示例进行排名,然后将20%的测试示例分类为最低等级(最接近分离超平面)为未知。
答案 2 :(得分:1)
只需谷歌“弃用分类器”。
答案 3 :(得分:0)
我假设您谈论二进制分类?
另外,当你说"哪些分类最有可能是假的并且拒绝回答它们时,我认为你的意思是你想要定义一个灰色区域,你的分类器可以使用它。决定。您可以使用两个决策阈值而不是一个:一个决定您的样本为正数,另一个决定您的样本为负数。两者之间剩下的是"未知"。
如果您的意思是"哪些样本可能是假的",那么在这种情况下,它听起来更像是排名任务而不是分类任务。