我正在尝试生成一个模型,该模型使用一个分子的几种物理化学特性(包括原子数,环数,体积等)来预测数值Y。我想使用PLS回归,并且我了解标准化在这里非常重要。我正在使用scikit-learn在Python中进行编程。功能的类型和范围会有所不同。有些是int64,而另一些是float。一些特征通常具有较小的值(正值或负值),而其他特征则具有非常大的值。我尝试使用各种缩放器(例如标准缩放器,规范化,最小最大缩放器等)。然而,R2 / Q2仍然很低。我有几个问题:
答案 0 :(得分:2)
缩放的整体思想是使模型对特征空间的分析更加健壮。例如,如果您具有2
和5 Kg
的{{1}}功能,我们知道两者是相同的,但是对于某些算法,它们对度量空间(例如{{ 1}},5000 gm
等,它们将更偏重于第二功能,因此必须对这些算法进行缩放。
现在要问您的问题,
sensitive
相同。它具有很好的功能。如果您认为自己有很多KNN
,则可以使用PCA
正则化,这会在特征空间上产生regularization
效果,除了为无效的特征分配useless-features
的权重外,别无其他。这是more-info的链接。还有一点,某些方法,例如基于L1
的模型不需要缩放,最后,它主要取决于您选择的模型。
答案 1 :(得分:1)