R中遗传数据的模拟

时间:2012-09-03 07:15:30

标签: r simulation genetics

我正在寻找可用于模拟特定SNP和定量表型之间遗传关联的最佳方法或最佳方案,模拟数据与我的真实数据最相似,除了我知道因果变异。 我在R中看到的所有包装似乎都专注于谱系数据或人口数据,其中指定了聚结和其他进化因子,但我没有任何群体遗传经验,我只想模拟欧洲的简单情况 与我的真实数据具有相似特征的人口 (即性状的正态分布和基因型的相加效应,类似的等位基因频率......) 因此,例如,如果我的遗传数据是X,我的定量变量是Y:

X <-rbinom(1000,2,0.4)
Y <- rnorm(1000,1,0.4)

我正在寻找与Plink中的功能类似的东西,其中需要指定一系列等位基因频率,表型的范围,并指定应该与基因型相关的特定变体(这很重要,因为我需要在不同的数据集中重复这些关联,因果变量是相同的)

有人可以帮帮我吗?

1 个答案:

答案 0 :(得分:0)

如果基因型只改变表型的平均值,这很简单。

phenotype.means <- c(5, 15, 20)  # phenotype means for genotypes 0, 1, and 2
phenotype.sd <- 5
X <- rbinom(1000,2,0.4)
Y <- rnorm(1000, phenotype.means[X], phenotype.sd)

这将导致Y包含1000个正态分布的变量,其中具有纯合隐性基因型(aa或0)的那些将具有5的平均值,具有杂合基因型的那些({{1} },或1)的平均值为15,纯合显性基因型(Aa或2)的平均值为20。

如果您想要更传统的2种设置表型(AAAA/Aa),只需将aa设置为phenotype.means