应用错误收集

来自sklearn.feature_selection的F_Regression

时间：2016-06-10 11:31:56

标签： python scikit-learn regression feature-selection

我在sklearn功能选择模块中找到了用于特征选择的F_regression技术。我无法理解它使用的原理。给出的描述是 -

单变量线性回归测试。
用于测试单个回归量的效果的快速线性模型，顺序地用于许多回归量。这分三步完成：

1.感兴趣的回归量和数据与常数回归量正交化。

2.计算数据和回归量之间的互相关。

3。它被转换为F分数，然后转换为p值。

我无法理解这一点，请允许有人以外行的方式解释这一点。

1 个答案:

答案 0 :(得分：2)

文档中的语言有点迟钝。我相信数据＆＃39;是指回应。首先，选择的回归量和响应相对于其余的回归量是正交的。这减少了可能存在的任何多重共线性。然后，计算所选回归量与响应之间的相关性。在单变量设置中，相关系数是R ^ 2的平方根，可以根据用于测试模型整体重要性的F统计量来编写（另请参见：https://stats.stackexchange.com/questions/56881/whats-the-relationship-between-r2-and-f-test）。接下来，将相关性转换为F统计量，计算相应的p值，并返回F和p。如果有多个回归量，则一次一个地对所有回归量进行此操作。