来自sklearn.feature_selection的F_Regression

时间:2016-06-10 11:31:56

标签: python scikit-learn regression feature-selection

我在sklearn功能选择模块中找到了用于特征选择的F_regression技术。我无法理解它使用的原理。 给出的描述是 -

单变量线性回归测试。
用于测试单个回归量的效果的快速线性模型,顺序地用于许多回归量。 这分三步完成:

    1.感兴趣的回归量和数据与常数回归量正交化。
    2.计算数据和回归量之间的互相关。
    3。它被转换为F分数,然后转换为p值。

我无法理解这一点,请允许有人以外行的方式解释这一点。

1 个答案:

答案 0 :(得分:2)

文档中的语言有点迟钝。我相信数据'是指回应。首先,选择的回归量和响应相对于其余的回归量是正交的。这减少了可能存在的任何多重共线性。然后,计算所选回归量与响应之间的相关性。在单变量设置中,相关系数是R ^ 2的平方根,可以根据用于测试模型整体重要性的F统计量来编写(另请参见:https://stats.stackexchange.com/questions/56881/whats-the-relationship-between-r2-and-f-test)。接下来,将相关性转换为F统计量,计算相应的p值,并返回F和p。如果有多个回归量,则一次一个地对所有回归量进行此操作。