我是机器学习的初学者。因此,任何帮助或建议都会有很大帮助。
我已经读过,权衡要素和预测是一个非常糟糕的主意。但是,如果少数功能需要加权,该怎么办。
在分类问题中,我们通常认为年龄是最依赖的,我该如何权衡此功能。我当时正想对其进行归一化,但方差为1.5或2(其他要素的方差为1),我相信此要素将具有更大的权重。这从根本上是错的吗?如果有其他方法错误。
它对分类和回归问题的影响不同吗?
答案 0 :(得分:0)
通常,如果某个要素比其他要素具有更高的重要性,并且该模型足够密集,并且具有足够的训练样本,您的模型将通过优化权重矩阵来自动赋予它更多的重要性,因为我们在反向传播中具有偏导数它可以计算每个连接的变化,因此它学会了更加重视该功能本身。如果您不对其进行标准化,而是将其缩放到更高的比例,则可能夸大了它的重要性。
在实践中,如果输入居中且为白色,则神经网络最有效。这意味着它们的协方差是对角线的,平均值是零向量。这可以改善神经网络的优化,因为隐藏的激活函数不会很快饱和,因此在学习初期不会为您提供接近零的梯度。
如果仅将一个特征放大一个较小的值,则可能会或可能不会产生预期的效果,但是饱和梯度的可能性更高,因此我们避免使用它。
答案 1 :(得分:0)
如果我们专门讨论随机森林(如您标记的那样),则可以使用加权子空间随机森林算法(在R wsrf
包中)。该算法确定每个变量的权重,然后在模型构建过程中使用这些权重。
关于类的变量的信息量是 用信息增益率来衡量。该措施用作 该变量被选择包含在 在树中拆分特定节点时的变量子空间 建设过程。因此,具有较高值的变量 在变量期间更有可能选择度量作为候选 选择并可以构建更坚固的树。