Python statsmodels:回归摘要,如何获取参考虚拟变量的p值?

时间:2018-10-22 04:03:01

标签: python regression statsmodels

我正在如下运行MNLogit(多项式逻辑回归):

from statsmodels.formula.api import MNLogit
model=MNLogit.from_formula("y ~ x", df).fit()
model.summary()

变量y是分类的,并且似乎由MNLogit函数自动伪编码。摘要输出为y的每个类别(参考类别除外)提供一行。

1)如何获得参考类别的标识? (由于y的类别很多,因此手动进行计算很麻烦)

2)因为没有z或P> | z | (p-value)给参考类别,我如何评估参考类别的重要性?

3)如何更改将哪个类别视为参考类别?

2 个答案:

答案 0 :(得分:0)

  1. 拦截项是您的参考水平(即“缺失”类别)的结果, 您可以通过检查变量的第一级来检查引用是什么
  2. 测试统计量和p值在参考类别的“拦截”项中
  3. 重新设置分类变量,可以选择使用不同的对比度处理来设置所需的对比度。

答案 1 :(得分:0)

  1. 我相信使用Statmodels MNLogit可以对字符串中的第一个变量进行排序,该列表列出了可能一直用作引用对象的y变量。您可以在示例中使用model.model._ynames_map来检查第一个变量。这将返回一个字典,并且带有0键的值应该是用于引用对象的字典。

  2. This site提供了一些有关如何解释引用对象的信息。我不会通过重新输入来掩饰这一点。它不是在python中,而是统计信息的租户可以跨语言使用。

  3. 作为第一个排序的响应充当对象,我相信您必须通过添加“ AAAAA”或类似的响应来将响应更改为所需的内容,以确保它在列表中排在首位,但是一旦您能够知道所指对象是谁,并根据需要调整结论的措辞,就没有必要了。