应用错误收集

分类 - 当尺寸数大于样本数时，我们可以使用什么？

时间：2015-05-04 13:56:12

标签： machine-learning scikit-learn svm data-mining prediction

我已经在scikit-learn网站上读到，当维度数量大于样本数量时，SVM是一个不错的选择。

我想知道你认为（有经验的用户）在预测类是二进制的情况下效率更高。

尤其是当标记样本数量约为50时该怎么办。

应该有效的算法？要关心的事情？

1 个答案:

答案 0 :(得分：0)

如果您有密集数据，并且n＆lt; d，您过度拟合的风险很高：每个维度或维度差异都可以唯一标识您的培训记录。

这并不意味着它不起作用，只是在评估方法时必须格外小心，因为过度拟合的风险很高。

一次只使用一个维度的方法 - 例如决策树 - 可能会受到的影响较小。特别是，如果您将修剪技术应用于树。