最近,我使用了sklearn(一个python meachine学习库)来做一个短文本分类任务。我发现SelectKBest类可以选择K最好的功能。然而,SelectKBest的第一个参数是一个得分函数,它取两个数组X和y,并返回一对数组(得分,p值)"。我知道得分,但是pvalues的含义是什么?
答案 0 :(得分:7)
一般来说,p值表示在零假设下给定结果或更极端结果的可能性。在您的特征选择的情况下,零假设类似于此特征不包含关于预测目标的信息,其中没有信息将被解释为评分意义上的方法:如果您的评分方法测试,例如单变量线性互动(f_classif
,f_regression
sklearn.feature_selection
是你的评分函数的选项),然后零假设说这种线性互动不存在。
TL; DR 特征选择分数的p值表示如果此变量未显示与此相关的此分数或更高分数的概率目标
另一个一般声明:得分 如果更大, p值 更好 (和损失 如果更小)
更好