R:探索性线性回归,建立一个包含多个依赖变量和独立变量的简单模型

时间:2017-07-19 11:36:13

标签: r apply linear-regression

我有几个案例的研究,都包含来自多个序数因子变量(基因型)和多个数字变量(各种血液样本(浓度))的数据。我试图建立一个探索模型来测试任何数值变量之间的线性(依赖于模型)和任何序数因子变量(独立于模型中) )。

数据集结构示例(自变量):genotypes

case_id   genotype_1   genotype_2   ... genotype_n
1         0            0                1
2         1            0                2
...       ...          ...              ...
n         2            1                0

和因变量(匹配案例id:s):samples

case_id   sample_1   sample_2   ... sample_n
1         0.3        0.12           6.12
2         0.25       0.15           5.66
...       ...        ...            ...
n         0.44       0.26           6.62

在论坛中找到了一个没有解决问题的类似例子:

model <- apply(samples,2,function(xl)lm(xl ~.,data= genotypes))

无法弄清楚如何进行简单的线性回归,通过给定的一组依赖变量和自变量的任意组合。如果使用apply系列,我猜变量(x)项应该是模型中的因变量,因为每个因变量应该测试同一组独立变量的线性度(单独)。

从真实数据中提取:

> genotypes

      case_id genotype_1 genotype_2 genotype_3 genotype_4 genotype_5
 1       1          2          2          1          1          0
 2       2        NaN          1        NaN          0          0
 3       3          1          0          0          0        NaN
 4       4          2          2          1          1          0
 5       5          0          0          0          1        NaN
 6       6          2          2          1          0          0
 7       9          0          0          0          0          1
 8      10          0          0          0        NaN          0
 9      13          0          0          0        NaN          0
10      15        NaN          1        NaN          0          1

> samples

   case_id    sample_1    sample_2     sample_3   sample_4    sample_5
 1       1  0.16092019  0.08814160 -0.087733372  0.1966070  0.09085343
 2       2 -0.21089678 -0.13289427  0.056583528 -0.9077926 -0.27928376
 3       3  0.05102400  0.07724300 -0.212567535  0.2485348  0.52406368
 4       4  0.04823619  0.12697286  0.010063683  0.2265085 -0.20257192
 5       5 -0.04841221 -0.10780329  0.005759269 -0.4092782  0.06212171
 6       6 -0.08926734 -0.19925538  0.202887833 -0.1536070 -0.05889369
 7       9 -0.03652588 -0.18442457  0.204140717  0.1176950 -0.65290133
 8      10  0.07038933  0.05797007  0.082702589  0.2927817  0.01149564
 9      13 -0.14082554  0.26783539 -0.316528107 -0.7226103 -0.16165326
10      15 -0.16650266 -0.35291579  0.010063683  0.5210507  0.04404433

总结:由于我有很多数据,我想创建一个简单的模型来帮助我选择哪些可能的相关性进一步研究。那里有什么想法吗?

注意:我不是要尝试拟合多元线性回归模型!

0 个答案:

没有答案