我有一个数据集,其中:
X1-类别自变量
X2-连续自变量
y-连续因变量
我正在寻找使用X1和X2来预测y。线性回归是否适用于此(对分类自变量进行回归甚至有意义吗?)?如果是这样,当X1是类别自变量(例如眼睛的颜色)时,如何使用线性回归?
我应该为X1中的每个类别创建一个单独的线性回归模型吗?还是尝试创建一个多元线性回归模型?
在线查看时,大多数资源都涉及连续独立->连续依赖(线性回归)或连续独立->分类依赖(逻辑回归)。
将感谢您指出对我有帮助的任何资源/工具。
答案 0 :(得分:0)
您可以使用线性回归,但是首先需要首先将X1编码为一系列变量。
这是一个使用“虚拟编码”方法的简单示例:
┏━━━━━━━━━━━━┳━━━━━┳━━━━━┓
┃ Eye Colour ┃ x11 ┃ x12 ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Blue ┃ 0 ┃ 0 ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Brown ┃ 1 ┃ 0 ┃
┣━━━━━━━━━━━━╋━━━━━╋━━━━━┫
┃ Green ┃ 0 ┃ 1 ┃
┗━━━━━━━━━━━━┻━━━━━┻━━━━━┛
这是一篇介绍不同编码方法的文章: