在第352页上,James等人的“统计学习简介” 。解释使用多项式内核的效果,如下所示:
从本质上讲,这等于将支持向量分类器拟合到 涉及次数为d的多项式的高维空间 比原始特征空间要大。
但是,它接着指出,当使用非线性内核时,使用以下方法进行预测:
现在,该方程式中的参数数量为1 + | S |,其中| S |是支持向量的数量。如果要显式地使用其他功能,则每个功能的权重都是单独的,可能超过1 + | S |。参数。因此,似乎使用内核比使用显式功能提供的表达能力要弱。它是否正确?
答案 0 :(得分:0)
如果特征数(| F |)大于| S |,则可以容纳更多参数,这是正确的。将| S |装入SVM <| F |通常会比对F进行线性拟合更准确,因为您正在对F执行非线性拟合。请看左图中的示例
您不能对给定特征(x和y轴)进行线性组合,以完美地分隔黑白标签,但是可以对F进行某种非线性变换(正确显示)。您可以尝试将要素的变换添加为附加要素(例如[f_1, f_2, f_1*f_1, f_1*f_2, f_2*f_2]
,其中f_1, f_2
是原始要素),或者可以改装SVM。在SVM中,您不需要对某些变换后的特征进行线性拟合,而是通过所选内核对每个数据点与支持向量的关系进行线性拟合。
第二个考虑因素是,添加与标签无关的其他功能会给您的贴合度带来噪音,并且权重可能非零,因为它们会拾取数据中的某些随机模式。因此,拟合更多参数并不总是对模型有帮助。