我希望有更多机器学习知识的人可以帮助我。我一直在阅读回归和分类的例子,我似乎总是回到这个问题'这个算法正在做什么与标准统计分析之间的区别是什么'。
具体来说,我读过的所有例子似乎都没有讨论预测因素。例如,在查看线性回归时,文章通常会解释尝试创建“最佳拟合”的概念 - 线性方程的组合,然后迭代成本函数,直到达到最小值。当然,很多重点都放在了“训练数据集”上。没问题......但这通常是它结束的地方。在这一点上,我看不出上述和标准方式之间的区别,在这种方式中,人们将对假定具有线性关系的数据集进行统计分析。据推测,这里的未来值是从成本函数收敛到最小值时产生的等式“预测”的 - 再次,这里似乎没有太多'学习',因为这正是通常情况下所做的
经过长时间的介绍......我想问的是算法是如何从原始训练数据中学到的?这个培训集如何帮助未来的数据集? (再次,这是我有点迷失的地方 - 对我而言,似乎你会给它一个新的数据集,并执行最小化成本函数的相同任务 - 但是,这次你有一个更好的'起点'但是你所有的知识都来自于你已经对数据集“已知”的东西,即那个假定为线性关系的东西。
我希望这是有道理的 - 显然缺乏理解,但我希望有人能把我推向正确的方向。
谢谢!
答案 0 :(得分:3)
你是对的,没有区别。线性回归纯粹是一种统计方法,并且适合于#34;可能会比#34;学习"更准确在这种情况下。但同样,这通常只是关于这一主题的第一次讲座。有许多方法可以使差异更加清晰,例如SVM。还有一些方法可以学习"方面更加清晰,例如在游戏中使用reirforcement学习,您可以实际看到您的系统通过经验提高其性能。
无论如何,机器学习的主要课题是从实例中学习。您将获得100名患者的名单,以及血压,年龄,胆固醇水平等,并且每名患者都被告知他们是否患有心脏病。然后,给你一个你以前没见过的病人。他有心脏病吗?大多数人称之为预测。您可能更喜欢称它为拟合或其他任何东西。但事实是,它通常运作良好。
尽管如此,主题仍然与统计数据密切相关,实际上,您需要对基础函数做出一些假设(在更大或更小的范围内,取决于算法)。它并不完美,但在许多情况下它是我们拥有的最好的东西,所以我认为它值得研究。如果你现在就开始,有一个很棒的在线课程,斯坦福大学的统计学习",从你的角度来处理这个问题。