我目前正在研究一个问题,我根据市场研究机构进行的调查得出调查回复。该调查测量了对产品服务的覆盖感。调查范围:0-100。样本量4K。
目前的任务是找出受访者调查回复与他们与公司的支出之间的相关性,即说是高感知客户的支出高,反之亦然。
我的方法:
由于比例很大,首先我把它缩小到1-10,即1比0-10%,2比1 ......等等。然后我在新规模和支出上使用了单变量线性回归
在缩放后,我将调查范围视为连续。
问题:
1)是否假设将比例(在缩放到1-10之后)连续对错?
2)是否需要规范化?当我对数据进行标准化时,系数不能被解释为美元值,这对商务人士来说更有意义。如果我在没有规范化的情况下运行分析会有什么影响?
3)另外,如果一个是调查回答而另一个是花费,那么归一化是正确的吗?
答案 0 :(得分:0)
问题: 1) 的错误的强> 通常,当连续变量被重新编码时,它将使其离散。然后线性回归不适合你的情况。
2)进行规范化以减少异常值在数据集中的影响。通过在不对数据进行标准化的情况下执行分析,您可以将极端值作为模型的信息。
3)它取决于你之后想要做什么....我会说在进行数据分析时保持每一件事都是平等的总是更好。