我正在使用R中的lm
函数运行多元线性回归模型,以研究某些特征对基因表达水平的影响。
我的数据矩阵包含一个连续因变量(即基因表达水平)和50个解释变量,它们是每个基因上这些特征的计数,其中许多计数为零。
我检查了所有的回归假设,我发现了两个问题,第一个是异方差性,另一个是自相关问题。后者并不严重。我想知道使用多元线性回归是否正确,如果有任何其他回归技术可以用来解决这些问题。
我使用逐步方法,在那些50中我只得到了11个重要变量。但是当我检查异方差时,我发现它仍然如下所示。样本量为15,000个基因。 (15,000行和50列)。
更新了图片,权重已添加到lm
,重新评论