机器学习分类器(LG,SVM和决策树)的主要假设

时间:2016-02-16 01:23:02

标签: machine-learning svm decision-tree logistic-regression

在经典统计中,人们通常陈述假设的假设(即数据的正态性和线性,数据的独立性)。但是,当我阅读机器学习教科书和教程时,基本的假设并不总是明确或完整地陈述。以下ML分类器对二元分类的主要假设是什么,哪些对于维护并不重要,哪一个必须严格维护?

  • 逻辑回归
  • 支持向量机(线性和非线性内核)
  • 决策树

2 个答案:

答案 0 :(得分:1)

IID是几乎所有统计学习方法的基本假设。

Logistic回归是GLM(广义线性模型)的一个特例。因此,尽管有一些技术要求,但最严格的限制在于数据分布的具体分布。数据必须具有指数族的分布。您可以在https://en.wikipedia.org/wiki/Generalized_linear_model深入挖掘,斯坦福CS229讲义1也对该主题有很好的报道。

SVM非常容忍输入数据,尤其是软边距版本。我记不起任何具体的数据假设(请更正)。

决策树讲述了与SVM相同的故事。

答案 1 :(得分:1)

好问题。

Logistic回归还假设以下条件:

  1. 自变量之间没有(或很少有)多重共线性(高度相关)。

  2. 即使LR不需要因变量和自变量线性相关,但是它确实要求自变量与对数几率线性相关。对数赔率功能只是log(p/1-p)