应用错误收集

时间：2015-07-21 12:40:00

标签： machine-learning svm logistic-regression

我在我的数据集上训练了一个SVM和逻辑回归分类器。两个分类器都提供权重向量，其大小与特征数量相同。通过选择具有最高权重的10个特征，我可以使用此权重向量来选择10个最重要的特征。

我应该使用权重的绝对值，即选择具有最高绝对值的10个要素吗？

其次，这仅适用于具有线性内核的SVM，但不适用于我读过的RBF内核。对于非线性核，权重在某种程度上不再是线性的。在非线性核SVM的情况下，权重向量不能用于确定特征重要性的确切原因是什么？

答案 0 :(得分：1)

当我回答similar question时，任何linear classifier的权重向量都表示要素重要性：仅仅因为最终值是权重值与权重系数的线性组合，所以权重越大，影响越大到最终值是由相应的加数引起的。

因此，对于线性分类器，您可以采用具有最大权重的特征（不具有特征本身的最大值，或者权重和特征值的最大乘积）。

它还解释了为什么像RBF这样的非线性内核的SVM没有这样的属性：特征值和权重都转换到另一个空间，你不能说更大的权重会带来更大的影响，请参阅{ {3}}

如果您需要为非线性SVM选择最重要的功能，请使用wiki的特殊方法，即feature selection。