标签: python pandas regression statsmodels
我有一个数据集,包括7个不同的协变量和一个输出变量,即“成功率”。 我试图找出预测成功率的重要因素。我的数据集中的一个协变量是一个分类变量,它带有700个值(0到700),每个值代表它们所来自的区域的ID。 在执行逻辑回归时如何处理此变量? 如果我制作700个虚拟列,我怎样才能更容易理解结果呢? 我正在使用Python和statsmodels。
答案 0 :(得分:1)
您可以应用分组,然后对每个组进行逻辑回归。或者您将其视为多标签分类器并进行" Softmax回归"。