如何在多变量线性回归模型中使用分类变量(离散变量)。
众所周知,线性回归模型是由连续数据驱动的。离散变量(例如:0和1)在此类模型中有效,因为它们具有阶跃值(是的,不是,我不知道)。
显然,将一个类别变量放入多变量线性模型中很容易,但是如果我占多数,则这样的离散变量是有问题的。
这是真实经验的例子。
我正在设计用于预测面包店零售网络需求的模型。所有者有一个问题:第二班需要送多少货到商店。对于正在下班回家的客户。
我发现了7个重要的变量:
第一个变量:1。平日,2。周末,3。节假日前一天
第二个变量:1.天气不好2.天气不错是
第三:温度(连续数据)
第四:一周中的哪一天(从1到7)
第五:通讯列车问题是(否)(对于火车站附近的商店)
所有者需要知道要发送多少产品才能满足需求。因此排除了逻辑回归。 我有个主意,可以使用任何统计工具将离散数据转换为连续数据。但是我在线性回归模型中也得到了相同的结果。我不知道如何解决这个问题。