我有几个案例的研究,都包含来自多个序数因子变量(基因型)和多个数字变量(各种血液样本(浓度))的数据。我试图建立一个探索模型来测试任何数值变量之间的线性(依赖于模型)和任何序数因子变量(独立于模型中) )。
数据集结构示例(自变量):genotypes
case_id genotype_1 genotype_2 ... genotype_n
1 0 0 1
2 1 0 2
... ... ... ...
n 2 1 0
和因变量(匹配案例id:s):samples
case_id sample_1 sample_2 ... sample_n
1 0.3 0.12 6.12
2 0.25 0.15 5.66
... ... ... ...
n 0.44 0.26 6.62
在论坛中找到了一个没有解决问题的类似例子:
model <- apply(samples,2,function(xl)lm(xl ~.,data= genotypes))
我无法弄清楚如何进行简单的线性回归,通过给定的一组依赖变量和自变量的任意组合。如果使用apply系列,我猜变量(x)项应该是模型中的因变量,因为每个因变量应该测试同一组独立变量的线性度(单独)。
从真实数据中提取:
> genotypes
case_id genotype_1 genotype_2 genotype_3 genotype_4 genotype_5
1 1 2 2 1 1 0
2 2 NaN 1 NaN 0 0
3 3 1 0 0 0 NaN
4 4 2 2 1 1 0
5 5 0 0 0 1 NaN
6 6 2 2 1 0 0
7 9 0 0 0 0 1
8 10 0 0 0 NaN 0
9 13 0 0 0 NaN 0
10 15 NaN 1 NaN 0 1
> samples
case_id sample_1 sample_2 sample_3 sample_4 sample_5
1 1 0.16092019 0.08814160 -0.087733372 0.1966070 0.09085343
2 2 -0.21089678 -0.13289427 0.056583528 -0.9077926 -0.27928376
3 3 0.05102400 0.07724300 -0.212567535 0.2485348 0.52406368
4 4 0.04823619 0.12697286 0.010063683 0.2265085 -0.20257192
5 5 -0.04841221 -0.10780329 0.005759269 -0.4092782 0.06212171
6 6 -0.08926734 -0.19925538 0.202887833 -0.1536070 -0.05889369
7 9 -0.03652588 -0.18442457 0.204140717 0.1176950 -0.65290133
8 10 0.07038933 0.05797007 0.082702589 0.2927817 0.01149564
9 13 -0.14082554 0.26783539 -0.316528107 -0.7226103 -0.16165326
10 15 -0.16650266 -0.35291579 0.010063683 0.5210507 0.04404433
总结:由于我有很多数据,我想创建一个简单的模型来帮助我选择哪些可能的相关性进一步研究。那里有什么想法吗?
注意:我不是要尝试拟合多元线性回归模型!