现有功能的组合是否具有新功能?

时间:2012-02-05 09:43:51

标签: machine-learning

如果我添加现有功能的线性,非线性组合,是否有助于更好地分类?例如,它是否有助于添加均值,方差作为从现有要素计算的新要素?我相信它肯定取决于分类算法,如在PCA的情况下,算法本身生成彼此正交的新特征并且是输入特征的线性组合。但是在基于决策树的分类器或其他分类器的情况下它如何影响呢?

2 个答案:

答案 0 :(得分:13)

是的,现有功能的组合可以提供新功能并有助于分类。此外,特征与其自身的组合(例如,来自特征的多项式)可以用作在分类期间使用的该附加数据。

作为一个例子,考虑逻辑回归分类器,其核心公式为核心:

g(x, y) = 1*x + 2*y

想象一下,你有两个观察结果:

  1. x = 6; y = 1
  2. x = 3; y = 2.5
  3. 在这两种情况下,g()将等于8.如果观察属于不同的类别,则您无法区分它们。但是,我们再添加一个变量(要素)z,这是前两个要素的组合 - z = x * y

    g(x, y, z) = 1*x + 2*y + 0.5*z
    

    现在我们有相同的观察结果:

    1. x = 6; y = 1; z = 6 * 1 = 6 ==> g()= 11
    2. x = 3; y = 2.5; z = 3 * 2.5 = 7.5 ==> g()= 11.75
    3. 所以现在我们得到2个不同的点,可以区分2个观察点。

      多项式特征(x ^ 2,x ^ 3,y ^ 2等)不会提供额外的点,而是更改函数的图形。例如,g(x) = a0 + a1*x是一条线,而g(x) = a0 + a1*x + a2*x^2是抛物线,因此可以更紧密地拟合数据。

答案 1 :(得分:1)

一般来说,拥有更多功能总是更好。除非你有非常具有预测性的功能(即它们允许类的完美分离以进行预测),否则我总是建议添加更多功能。在实践中,许多分类算法(特别是决策树诱导器)无论如何都会为其目的选择最佳特征。