线性回归是否适用于分类自变量和连续因变量?

时间:2018-10-16 09:41:00

标签: python machine-learning linear-regression

我有一个数据集,其中:

X1-类别自变量

X2-连续自变量

y-连续因变量

我正在寻找使用X1和X2来预测y。线性回归是否适用于此(对分类自变量进行回归甚至有意义吗?)?如果是这样,当X1是类别自变量(例如眼睛的颜色)时,如何使用线性回归?

我应该为X1中的每个类别创建一个单独的线性回归模型吗?还是尝试创建一个多元线性回归模型?

在线查看时,大多数资源都涉及连续独立->连续依赖(线性回归)或连续独立->分类依赖(逻辑回归)。

将感谢您指出对我有帮助的任何资源/工具。

1 个答案:

答案 0 :(得分:0)

您可以使用线性回归,但是首先需要首先将X1编码为一系列变量。

这是一个使用“虚拟编码”方法的简单示例:

┏━━━━━━━━━━━━┳━━━━━┳━━━━━┓
┃ Eye Colour ┃ x11 ┃ x12 ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Blue       ┃  0  ┃  0  ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Brown      ┃  1  ┃  0  ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Green      ┃  0  ┃  1  ┃
┗━━━━━━━━━━━━┻━━━━━┻━━━━━┛

这是一篇介绍不同编码方法的文章:

https://stats.idre.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis-2/