我想使用线性回归来计算使用线性回归计算的浓度这是我数据集的一个样本:
Concentration count#0
Ctcf 3153
Err 2228
Nkx3-2 4
Isl/ 6
Engrailed 10
Dr 14
Usf 461
Dach1/Dac 4185
POS_C(8) 139664 1143
POS_A(128) 2234624 8897
POS_F(0.125) 2182 20
POS_D(2) 34916 220
POS_B(32) 558656 3359
POS_E(0.5) 8729 21
我想知道是否更好地使用lm
然后预测或使用approx
。和approxfun
?我不是统计专家,我没有在互联网上找到任何解释。谢谢!
答案 0 :(得分:0)
lm
是你想要适合普通线性回归(LR)的方法。如果您认为您的回答可以通过预测变量的线性组合得到很好的描述,则LR可能是合适的。您不需要数据正常以使LR工作,但如果您要计算参数等的测试统计数据,则确实需要(近似)正态性。此外,如果您对推理和系数解释感兴趣,请不要忘记检查通常的诊断(残差具有均值0,常见方差和无趋势,异常值,多重共线性,正态性等)。
LR的实际模型是Y = X %*% beta + e
,其中Y
,beta
和e
是向量,X
是矩阵,{{1表示矩阵乘法。此表示法假定%*%
的第一列全部为1。默认情况下,X
使用QR分解,这样可以避免计算lm
甚至t(X) %*% X
的倒数,如果t(X) %*% X
很大,这可以节省大量时间。
X
找到[但不是通过直接计算] lm
,它为我们提供solve(t(X) %*% X) %*% t(X) %*% Y
的唯一(提供X
满列)估算值。
如果你想要一个简单的LR,你肯定不想使用任何其他东西。