线性回归:使用ML代替MSE之间的模型有区别吗?

时间:2019-02-19 14:56:56

标签: machine-learning linear-regression

我们知道构建机器学习算法需要四件事:

  1. 数据集
  2. 模型
  3. 成本函数
  4. 优化过程

以线性回归(gsub(' ', '', paste(unlist(t(df)), collapse = '')) #[1] "abcdef" )为例,我们有两种最常见的寻找最佳参数的方法:使用y = m*x +qML作为成本函数。

我们使用ML假设数据为MSE

这个假设也是模型的一部分吗?

不是,为什么呢?它是成本函数的一部分吗?

在这种情况下,我看不到模型的“边缘”。

2 个答案:

答案 0 :(得分:0)

从某种意义上说,数据是高斯分布的假设是该模型的一部分,因为对于高斯分布的数据,最小的均方误差还会产生数据的maximum liklelihood solution,给定模型参数。 (通用证明,有兴趣的话可以查一下。)

因此,您可以说高斯分布假设证明选择最小二乘作为损失函数是合理的。

答案 1 :(得分:0)

  

这个假设也是模型的一部分吗?

是的。不同损失函数的思想源于问题的性质,因此也取决于模型的性质。

MSE定义为误差平方的平均值(误差表示实数y与预测值y之间的差),如果数据是 不是 高斯分布的。试想一下数据中的几个极值,线的斜率会发生什么,从而导致残留误差?

linear_regression_with_and_without_outlier

值得一提的是线性回归的假设:

  1. 线性关系
  2. 多元正态性
  3. 没有或几乎没有多重共线性
  4. 无自相关
  5. 同方性

  

如果不是,为什么?它是成本函数的一部分吗?

据我所知,该假设与成本函数本身并不直接相关,而是与模型本身相关(如上所述)。

例如,支持向量机的思想是类别分离。这就是找出线/超平面(在分隔出类别的多维空间中),因此其成本函数为Hinge Loss到分类的“最大边距”。 另一方面,Logistic回归使用Log-Loss(与交叉熵有关),因为该模型是二元模型,并且对输出的概率(0或1)起作用。清单还在继续...