分类 - 当尺寸数大于样本数时,我们可以使用什么?

时间:2015-05-04 13:56:12

标签: machine-learning scikit-learn svm data-mining prediction

我已经在scikit-learn网站上读到,当维度数量大于样本数量时,SVM是一个不错的选择。

我想知道你认为(有经验的用户)在预测类是二进制的情况下效率更高。

尤其是当标记样本数量约为50时该怎么办。

应该有效的算法?要关心的事情?

1 个答案:

答案 0 :(得分:0)

如果您有密集数据,并且n< d,您过度拟合的风险很高:每个维度或维度差异都可以唯一标识您的培训记录。

这并不意味着它不起作用,只是在评估方法时必须格外小心,因为过度拟合的风险很高。

一次只使用一个维度的方法 - 例如决策树 - 可能会受到的影响较小。特别是,如果您将修剪技术应用于树。