学习输出概率的二元分类器

时间:2013-05-04 19:02:35

标签: machine-learning probability svm

一般来说,目标是建立一个二元分类器,它输出实例为正的概率,哪种机器学习最合适,哪种情况?

特别是,似乎支持向量机与Platt的Scaling可能是一个很好的候选者,但我在网上读到有人使用内核Logistic回归或高斯过程来完成这项任务。 一种方法对其他方法有明显的优势/劣势吗?

谢谢

2 个答案:

答案 0 :(得分:1)

列出所有可用于此常规任务的潜在算法几乎是不可能的。既然你提到了支持向量机(SVM),我将尝试对它们进行一些阐述。

SVM分类器从未真正输出实际概率。 SVM分类器的输出是测试实例与特征空间中的分离超平面的距离(这称为决策值)。默认情况下,根据此决策值的符号选择预测标签。

Platt缩放基本上适合SVM决策值之上的sigmoid,以将其缩放到[0,1]的范围,然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器。

SVM的一些明显优势包括:

  • 计算上有效的非线性分类器(训练实例中的二次方),
  • 可以处理高维数据,
  • 在无数领域表现出非常出色的表现。

SVM的下行包括:

  • 数据必须进行矢量化,
  • 模型相对难以解释(与决策树或逻辑回归相比),
  • 处理名义特征可能是笨重的,
  • 缺少值可能很难处理。

当您在寻找合适的概率输出(包括置信区间)时,您可能需要考虑统计方法,例如逻辑回归(内核版本也存在,但我建议从基本的东西开始)。

答案 1 :(得分:0)

这里有很多选择 - 一般来说,没有一个比一般更好。

对于对您的数据做出特定统计或结构假设的方法,检查您的数据是否跟随它们总是很好。

在不了解您的情况的情况下,最好的答案是“全部尝试,看看效果最好”。