逻辑回归中成本函数的局部和全局最小值

时间:2016-10-09 13:07:16

标签: machine-learning logistic-regression convex-optimization convex

我在推导逻辑回归公式时误解了极小值背后的想法。

这个想法是尽可能地增加假设(即正确的预测概率尽可能接近1),这反过来又要求尽可能地降低成本函数$ J(\ theta)$。

现在我被告知,为了这一切工作,成本函数必须是凸的。我对凸性的理解要求没有最大值,因此只有一个最小值,即全局最小值。这是真的吗?如果不是,请解释原因。此外,如果不是这种情况,那么这意味着成本函数中存在多个最小值的可能性,这意味着多组参数产生越来越高的概率。这可能吗?或者我可以确定返回的参数是指全局最小值,因此是最高概率/预测吗?

2 个答案:

答案 0 :(得分:4)

我们使用凸成本函数的事实并不能保证凸问题。

凸成本函数和凸算法之间存在区别。

您遇到的典型成本函数(交叉熵,绝对损失,最小二乘)被设计为凸。

然而,问题的凸性还取决于您使用的ML算法的类型。

线性算法(线性回归,逻辑回归等)将为您提供凸解,即它们将收敛。然而,当使用具有隐藏层的神经网络时,不再保证凸解。

因此,凸度是衡量您的方法的一种衡量标准,而不仅仅是您的成本函数!

LR是一种线性分类方法,因此每次使用时都应该得到凸优化问题!但是,如果数据不是线性可分的,它可能无法提供解决方案,在这种情况下肯定不会给您一个好的解决方案。

答案 1 :(得分:0)

是的,Logistic回归和线性回归的目的是找到权重和偏差,以提高模型的准确性(或者说在测试数据或真实数据上以更高的概率很好地工作)。为此,我们尝试找到权重和偏差,以使其在预测结果与实际结果之间的偏差(例如成本)最小。因此,如果我们绘制成本函数并找到其最小值,则可以达到相同的目的。因此,我们使用一种模型,使其成本函数具有一个局部最小值(即模型应该是凸的)