我需要对某些数据进行逻辑回归,我已经获得了一些用户功能,例如post
types
,number of friends
,number of posts
,number of uploaded photos
等等,并将这些用户聚集到几个集群中,现在,我想进行wald测试以测试哪些预测变量(来自这些用户特征)对于预测这些用户所属的集群具有重要意义,例如,使用二进制逻辑回归群集1中的用户,如果用户属于cluster 1
,cluster_label
为1
,而其他用户“cluster_label
为zero
,则需要使用wald_test选择哪些预测变量对预测群集标签有重要意义,例如,通过做wald测试来预测群集1中的用户,朋友数量和上传的照片数量具有最高的wald分数,因此,这两个特征是显着的用于预测集群1中的用户集群类型;也许对于群集2中的用户,通过做wald测试,帖子数量和共享新闻数量对于预测这些用户群集标签非常重要
这些数据的pandas
数据框如下图所示,用于预测用户cluster 1
中的用户:
NoPosts... Friends ... postCluster0_ratio... postCluster4_ratio cluster_label
24 ... 89 ... 0.35 ... 0.3 1
...
...
81 ... 161 ... 0.2 ... 0.15 0
...
...
当cluster_label为1时,表示该用户属于用户集群1,当cluster_label为0时,表示该用户不属于集群1,我想通过做wald测试来决定哪些预测变量(来自NoPosts,Frineds ... postcluster0_ratio ...)对于预测用户cluater标签非常重要,但来自
http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.wald_test.html#statsmodels.regression.linear_model.OLSResults.wald_test 在python中没有wald_test的例子,我不知道wald_test的所需输入是什么,如何适应,总之,我不知道如何使用wald_test作为我的情况,请问你如何使用wald_test ,最好为我提供代码
答案 0 :(得分:-1)
对于个别测试(非联合假设),您可以使用t_test,这是Wald测试的一个特例http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.t_test.html
测试的p值是否从零开始具有统计显着性,且位于summary()
且已预先计算,请参阅http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.RegressionResults.html中的pvalues
wald_test
是联合假设f_test
的更一般版本,其中有一些示例对wald_test的工作方式相同
http://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.f_test.html