我在我的数据集上训练了一个SVM和逻辑回归分类器。两个分类器都提供权重向量,其大小与特征数量相同。通过选择具有最高权重的10个特征,我可以使用此权重向量来选择10个最重要的特征。
我应该使用权重的绝对值,即选择具有最高绝对值的10个要素吗?
其次,这仅适用于具有线性内核的SVM,但不适用于我读过的RBF内核。对于非线性核,权重在某种程度上不再是线性的。在非线性核SVM的情况下,权重向量不能用于确定特征重要性的确切原因是什么?
答案 0 :(得分:1)
当我回答similar question时,任何linear classifier的权重向量都表示要素重要性:仅仅因为最终值是权重值与权重系数的线性组合,所以权重越大,影响越大到最终值是由相应的加数引起的。
因此,对于线性分类器,您可以采用具有最大权重的特征(不具有特征本身的最大值,或者权重和特征值的最大乘积)。
它还解释了为什么像RBF这样的非线性内核的SVM没有这样的属性:特征值和权重都转换到另一个空间,你不能说更大的权重会带来更大的影响,请参阅{ {3}}
如果您需要为非线性SVM选择最重要的功能,请使用wiki的特殊方法,即feature selection。