我在sklearn功能选择模块中找到了用于特征选择的F_regression技术。我无法理解它使用的原理。
给出的描述是 -
单变量线性回归测试。
用于测试单个回归量的效果的快速线性模型,顺序地用于许多回归量。
这分三步完成:
我无法理解这一点,请允许有人以外行的方式解释这一点。
答案 0 :(得分:2)
文档中的语言有点迟钝。我相信数据'是指回应。首先,选择的回归量和响应相对于其余的回归量是正交的。这减少了可能存在的任何多重共线性。然后,计算所选回归量与响应之间的相关性。在单变量设置中,相关系数是R ^ 2的平方根,可以根据用于测试模型整体重要性的F统计量来编写(另请参见:https://stats.stackexchange.com/questions/56881/whats-the-relationship-between-r2-and-f-test)。接下来,将相关性转换为F统计量,计算相应的p值,并返回F和p。如果有多个回归量,则一次一个地对所有回归量进行此操作。