应用错误收集

时间：2019-02-19 14:56:56

标签： machine-learning linear-regression

我们知道构建机器学习算法需要四件事：

以线性回归（gsub(' ', '', paste(unlist(t(df)), collapse = '')) #[1] "abcdef"）为例，我们有两种最常见的寻找最佳参数的方法：使用y = m*x +q或ML作为成本函数。

我们使用ML假设数据为MSE。

这个假设也是模型的一部分吗？

不是，为什么呢？它是成本函数的一部分吗？

在这种情况下，我看不到模型的“边缘”。

答案 0 :(得分：0)

从某种意义上说，数据是高斯分布的假设是该模型的一部分，因为对于高斯分布的数据，最小的均方误差还会产生数据的maximum liklelihood solution，给定模型参数。（通用证明，有兴趣的话可以查一下。）

因此，您可以说高斯分布假设证明选择最小二乘作为损失函数是合理的。

答案 1 :(得分：0)

这个假设也是模型的一部分吗？

是的。不同损失函数的思想源于问题的性质，因此也取决于模型的性质。

MSE定义为误差平方的平均值（误差表示实数y与预测值y之间的差），如果数据是不是高斯分布的。试想一下数据中的几个极值，线的斜率会发生什么，从而导致残留误差？

值得一提的是线性回归的假设：

如果不是，为什么？它是成本函数的一部分吗？

据我所知，该假设与成本函数本身并不直接相关，而是与模型本身相关（如上所述）。

例如，支持向量机的思想是类别分离。这就是找出线/超平面（在分隔出类别的多维空间中），因此其成本函数为Hinge Loss到分类的“最大边距”。另一方面，Logistic回归使用Log-Loss（与交叉熵有关），因为该模型是二元模型，并且对输出的概率（0或1）起作用。清单还在继续...