机器学习材料说通过回归来处理分类问题是个坏主意。但我认为总是可以进行连续回归以拟合数据并截断连续预测以产生离散分类。那么为什么这是一个坏主意呢?
答案 0 :(得分:13)
如果您正在进行分类,则需要优化与错误分类相关的内容。你只关心预测合适的班级。当您进行回归时,您希望最小化预测与实际值之间的某种失真度量。均方误差是回归的常见罚函数。
想象一下,优化回归量的参数,最终进行分类。有一个明显是第1类的例子,但它的标签非常非常大。为了最大限度地减少此示例中的损失,您必须大量调整权重,以使此示例的预测极端。但是,现在您的分类边界移动了很多,损害了您的分类准确性。当你不需要时,你得到了过度补偿。
您可以将此图表视为您根据错误预测示例的方式移动权重的数量。
这里的大多数损失函数都是错误分类损失的上限。优化错误分类上限的模型可以很好地进行分类。使用回归进行分类类似于选择平方误差损失,并且基本上错误地表示您想要优化的内容。这对应于平方误差损失向图的右侧向上移动,即使分类变得越来越自信,并且良好的分类损失函数都是0或者去那里。