如何将假设检验应用于ML模型中的特征?例如,假设我正在执行回归任务,并且想削减一些功能(一旦我训练了模型)以提高性能。如何应用假设检验来确定该功能是否有用?我对原假设是什么,重要性水平以及如何进行实验以获取特征的p值感到有些困惑(我听说0.15的重要性水平是一个很好的阈值,但是我不确定)。
例如。考虑到生产三台机器(A,B,C),我正在执行一项回归任务以预测我的工厂成本。我对数据进行了线性回归,发现机器A的p值大于我的显着性水平,因此,它在统计上不显着,因此我决定将其用于我的模型。
我已从Youtube上的视频中获取了此示例。我将链接放在下面。
相关位从4:00到7:00开始 https://www.youtube.com/watch?v=HgfHefwK7VQ
我尝试阅读有关内容,但是我无法理解他是如何确定这种显着性水平的,以及在这种情况下如何应用假设检验。
数据看起来像这样
mtcars[
cyl == 8 | ( cyl == 6 & sample( .N, 5 ) ),
lapply(.SD, generic_funciton),
.SDcols = (specific_cols)
]
模型拟合后,权重如下:
绝对体重:35102, 机器A:2.066, 机器B:4.17, 机器C:4.79
现在,问题是机器A的p值= 0.23,这被认为太高了,因此,该功能已从预测模型中排除了