我使用逻辑回归。我们知道它是一种监督方法,需要在训练和测试数据中计算出特征值。有六个功能。尽管功能产生这些特征的值是不同的,并且它们的最大值可以是1,但是有四个特征(在训练和测试数据中)具有非常低的值。例如它们的范围在0到0.1之间,从不为1,甚至超过0.1 !!!因此,这些特征的价值彼此非常接近。其他功能正常分布(范围在0到0.9之间)。所以这两种特征之间的差异很大,我认为这会给逻辑回归的学习过程带来麻烦。我对吗?!是否需要对这些功能进行任何转换/规范化?任何帮助将受到高度赞赏。
答案 0 :(得分:1)
简而言之:您应该在训练前将功能标准化。通常 - 因此每个都在某个范围内(如[0,1])或白化(平均0和标准1)。
为什么重要?为了使小"特征重要LR在这个维度上需要非常高的权重。但是,您可能会使用正则化LR (通常是L2正则化) - 在这种情况下,很难为这些向量分配高值,因为正则化惩罚会迫使模型选择相等分布的权重而不是 - 因此使用规范化。 然而 - 如果您在没有任何正则化的情况下使LR 适合,那么缩放(直到数值错误)是没有意义的,因为LR不依赖于缩放的选择(解决方案)应该完全一样)