我已经在scikit-learn网站上读到,当维度数量大于样本数量时,SVM是一个不错的选择。
我想知道你认为(有经验的用户)在预测类是二进制的情况下效率更高。
尤其是当标记样本数量约为50时该怎么办。
应该有效的算法?要关心的事情?
答案 0 :(得分:0)
如果您有密集数据,并且n< d,您过度拟合的风险很高:每个维度或维度差异都可以唯一标识您的培训记录。
这并不意味着它不起作用,只是在评估方法时必须格外小心,因为过度拟合的风险很高。
一次只使用一个维度的方法 - 例如决策树 - 可能会受到的影响较小。特别是,如果您将修剪技术应用于树。