python使用wald测试来测试预测器的意义

时间:2017-12-04 09:29:04

标签: python logistic-regression

我需要对某些数据进行逻辑回归,我已经获得了一些用户功能,例如post typesnumber of friendsnumber of postsnumber of uploaded photos等等,并将这些用户聚集到几个集群中,现在,我想进行wald测试以测试哪些预测变量(来自这些用户特征)对于预测这些用户所属的集群具有重要意义,例如,使用二进制逻辑回归群集1中的用户,如果用户属于cluster 1cluster_label1,而其他用户“cluster_labelzero,则需要使用wald_test选择哪些预测变量对预测群集标签有重要意义,例如,通过做wald测试来预测群集1中的用户,朋友数量和上传的照片数量具有最高的wald分数,因此,这两个特征是显着的用于预测集群1中的用户集群类型;也许对于群集2中的用户,通过做wald测试,帖子数量和共享新闻数量对于预测这些用户群集标签非常重要

这些数据的pandas数据框如下图所示,用于预测用户cluster 1中的用户:

NoPosts... Friends ...  postCluster0_ratio... postCluster4_ratio  cluster_label
 24     ...   89    ...       0.35         ...        0.3              1
 ...
 ...
 81     ...  161    ...       0.2          ...        0.15              0
 ...
 ...

当cluster_label为1时,表示该用户属于用户集群1,当cluster_label为0时,表示该用户不属于集群1,我想通过做wald测试来决定哪些预测变量(来自NoPosts,Frineds ... postcluster0_ratio ...)对于预测用户cluater标签非常重要,但来自

http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.wald_test.html#statsmodels.regression.linear_model.OLSResults.wald_test 在python中没有wald_test的例子,我不知道wald_test的所需输入是什么,如何适应,总之,我不知道如何使用wald_test作为我的情况,请问你如何使用wald_test ,最好为我提供代码

1 个答案:

答案 0 :(得分:-1)

对于个别测试(非联合假设),您可以使用t_test,这是Wald测试的一个特例http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.t_test.html

测试的p值是否从零开始具有统计显着性,且位于summary()且已预先计算,请参阅http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.RegressionResults.html中的pvalues

wald_test是联合假设f_test的更一般版本,其中有一些示例对wald_test的工作方式相同 http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.f_test.html