解释sklearn

时间:2018-06-24 01:07:03

标签: python scikit-learn logistic-regression feature-selection coefficients

我对我的数据拟合了逻辑回归模型。想象一下,我有四个特征:参与者接受的条件,参与者是否对被测现象有任何先验知识/背景(实验后调查表中的二进制响应),在实验任务上花费的时间以及参与者的年龄。我试图预测参与者最终选择了选项A还是选择选项B。我的逻辑回归使用clf.coef_输出以下特征系数:

[[-0.68120795 -0.19073737 -2.50511774 0.14956844]]

如果选项A是我的肯定类,此输出是否表示特征3是二进制分类中最重要的特征,并且与选择选项A的参与者有负相关关系(注意:我尚未对数据进行归一化/重新缩放) ?我想确保我对系数的理解以及可以从中提取的信息是正确的,因此我在分析中不会做任何概括或错误的假设。

感谢您的帮助!

2 个答案:

答案 0 :(得分:1)

您正在那里找到正确的路。如果一切都非常相似,那么在所有条件相同的情况下,更大的正负系数意味着更大的影响。

但是,如果您的数据未进行标准化,则Marat是正确的,因为系数的大小并不表示任何含义(无上下文)。例如,通过将度量单位更改为较大或较小,可以得到不同的系数。

我看不到这里是否包含非零截距,但是请记住,逻辑回归系数实际上是比值比,您需要将它们转换为概率,以得到更直接可解释的东西。 / p>

查看此页面以获得良好的解释: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

答案 1 :(得分:0)

逻辑回归以对数赔率形式返回信息。因此,您必须先使用 np.exp 将对数赔率转换为赔率,然后再取 odds/(1 + odds)

要转换为概率,请使用列表推导并执行以下操作:

[np.exp(x)/(1 + np.exp(x)) for x in clf.coef_[0]]

这个页面在 R 中有一个解释,用于转换我引用的对数赔率: https://sebastiansauer.github.io/convert_logit2prob/