一般来说,目标是建立一个二元分类器,它输出实例为正的概率,哪种机器学习最合适,哪种情况?
特别是,似乎支持向量机与Platt的Scaling可能是一个很好的候选者,但我在网上读到有人使用内核Logistic回归或高斯过程来完成这项任务。 一种方法对其他方法有明显的优势/劣势吗?
谢谢
答案 0 :(得分:1)
列出所有可用于此常规任务的潜在算法几乎是不可能的。既然你提到了支持向量机(SVM),我将尝试对它们进行一些阐述。
SVM分类器从未真正输出实际概率。 SVM分类器的输出是测试实例与特征空间中的分离超平面的距离(这称为决策值)。默认情况下,根据此决策值的符号选择预测标签。
Platt缩放基本上适合SVM决策值之上的sigmoid,以将其缩放到[0,1]的范围,然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器。
SVM的一些明显优势包括:
SVM的下行包括:
当您在寻找合适的概率输出(包括置信区间)时,您可能需要考虑统计方法,例如逻辑回归(内核版本也存在,但我建议从基本的东西开始)。
答案 1 :(得分:0)
这里有很多选择 - 一般来说,没有一个比一般更好。
对于对您的数据做出特定统计或结构假设的方法,检查您的数据是否跟随它们总是很好。
在不了解您的情况的情况下,最好的答案是“全部尝试,看看效果最好”。