如何使用SVM的权重向量和逻辑回归的特征重要性?

时间:2015-07-21 12:40:00

标签: machine-learning svm logistic-regression

我在我的数据集上训练了一个SVM和逻辑回归分类器。两个分类器都提供权重向量,其大小与特征数量相同。通过选择具有最高权重的10个特征,我可以使用此权重向量来选择10个最重要的特征。

我应该使用权重的绝对值,即选择具有最高绝对值的10个要素吗?

其次,这仅适用于具有线性内核的SVM,但不适用于我读过的RBF内核。对于非线性核,权重在某种程度上不再是线性的。在非线性核SVM的情况下,权重向量不能用于确定特征重要性的确切原因是什么?

1 个答案:

答案 0 :(得分:1)

当我回答similar question时,任何linear classifier的权重向量都表示要素重要性:仅仅因为最终值是权重值与权重系数的线性组合,所以权重越大,影响越大到最终值是由相应的加数引起的。

因此,对于线性分类器,您可以采用具有最大权重的特征(不具有特征本身的最大值,或者权重和特征值的最大乘积)。

它还解释了为什么像RBF这样的非线性内核的SVM没有这样的属性:特征值和权重都转换到另一个空间,你不能说更大的权重会带来更大的影响,请参阅{ {3}}

如果您需要为非线性SVM选择最重要的功能,请使用wiki的特殊方法,即feature selection