R,线性回归,lm,约

时间:2015-03-12 00:38:53

标签: r

我想使用线性回归来计算使用线性回归计算的浓度这是我数据集的一个样本:

Concentration   count#0
Ctcf                    3153
Err                 2228
Nkx3-2              4
Isl/                    6
Engrailed               10
Dr                  14
Usf                 461
Dach1/Dac               4185
POS_C(8)    139664      1143
POS_A(128)  2234624     8897
POS_F(0.125)    2182            20
POS_D(2)    34916           220
POS_B(32)   558656      3359
POS_E(0.5)  8729            21

我想知道是否更好地使用lm然后预测或使用approx。和approxfun?我不是统计专家,我没有在互联网上找到任何解释。谢谢!

1 个答案:

答案 0 :(得分:0)

lm是你想要适合普通线性回归(LR)的方法。如果您认为您的回答可以通过预测变量的线性组合得到很好的描述,则LR可能是合适的。您不需要数据正常以使LR工作,但如果您要计算参数等的测试统计数据,则确实需要(近似)正态性。此外,如果您对推理和系数解释感兴趣,请不要忘记检查通常的诊断(残差具有均值0,常见方差和无趋势,异常值,多重共线性,正态性等)。

LR的实际模型是Y = X %*% beta + e,其中Ybetae是向量,X是矩阵,{{1表示矩阵乘法。此表示法假定%*%的第一列全部为1。默认情况下,X使用QR分解,这样可以避免计算lm甚至t(X) %*% X的倒数,如果t(X) %*% X很大,这可以节省大量时间。

X找到[但不是通过直接计算] lm,它为我们提供solve(t(X) %*% X) %*% t(X) %*% Y的唯一(提供X满列)估算值。

如果你想要一个简单的LR,你肯定不想使用任何其他东西。