机器学习中的加权功能

时间:2019-02-21 06:38:31

标签: machine-learning normalization random-forest

我是机器学习的初学者。因此,任何帮助或建议都会有很大帮助。

我已经读过,权衡要素和预测是一个非常糟糕的主意。但是,如果少数功能需要加权,该怎么办。

在分类问题中,我们通常认为年龄是最依赖的,我该如何权衡此功能。我当时正想对其进行归一化,但方差为1.5或2(其他要素的方差为1),我相信此要素将具有更大的权重。这从根本上是错的吗?如果有其他方法错误。

它对分类和回归问题的影响不同吗?

2 个答案:

答案 0 :(得分:0)

通常,如果某个要素比其他要素具有更高的重要性,并且该模型足够密集,并且具有足够的训练样本,您的模型将通过优化权重矩阵来自动赋予它更多的重要性,因为我们在反向传播中具有偏导数它可以计算每个连接的变化,因此它学会了更加重视该功能本身。如果您不对其进行标准化,而是将其缩放到更高的比例,则可能夸大了它的重要性。

在实践中,如果输入居中且为白色,则神经网络最有效。这意味着它们的协方差是对角线的,平均值是零向量。这可以改善神经网络的优化,因为隐藏的激活函数不会很快饱和,因此在学习初期不会为您提供接近零的梯度。

如果仅将一个特征放大一个较小的值,则可能会或可能不会产生预期的效果,但是饱和梯度的可能性更高,因此我们避免使用它。

答案 1 :(得分:0)

如果我们专门讨论随机森林(如您标记的那样),则可以使用加权子空间随机森林算法(在R wsrf包中)。该算法确定每个变量的权重,然后在模型构建过程中使用这些权重。

  

关于类的变量的信息量是   用信息增益率来衡量。该措施用作   该变量被选择包含在   在树中拆分特定节点时的变量子空间   建设过程。因此,具有较高值的​​变量   在变量期间更有可能选择度量作为候选   选择并可以构建更坚固的树。