在Kaggle上通过一个内核进行回归分析时,提到数据应该看起来像正态分布。但是我不明白为什么? 我知道这个问题可能很基本,但是请帮助我理解这个概念。
预先感谢!
答案 0 :(得分:2)
回归模型有许多假设,其中之一是正态性。如果违反此假设,则您的p值和系数估计值周围的置信区间可能是错误的,从而导致关于预测变量的统计意义的错误结论
但是,常见的误解是数据(即变量/预测变量)需要正态分布,但这不是事实。这些模型没有对预测变量的分布进行任何假设。
例如,假设您的回归中有一个二元预测变量(男性/女性;慢/快等)-该变量不可能正态分布,但仍然是有效的预测变量在回归模型中。正态性假设实际上是指残差的分布,而不是预测变量本身