绘制沿着染色体的不同SNP的等位基因频率的好方法

时间:2016-08-16 20:20:04

标签: r ggplot2 bioinformatics genetics

我有一组来自基因组不同部分的SNP及其在各种群体和感兴趣的群体中的等位基因频率。我想绘制所有22个常染色体的SNP基因组坐标的等位基因频率。

基本上,我想从Sankararaman等人那里得到类似图1A的东西。 (2014)(http://www.nature.com/nature/journal/v507/n7492/fig_tab/nature12961_F1.html)除了Y轴是频率之外,所有种群都在同一个图上(没有分开),我会有彩色点而不是尖峰。

我的数据格式是这样的(MAF =次要等位基因频率,这是我想要绘制的图形)

CHR    SNP        COORD   CLST   A1   A2    MAF    MAC  NCHROBS
1   rs16823303  2903159  Region  G    A   0.01887   4     212

(它遍历区域的所有SNP,然后它为下一个区域执行它们,依此类推)

有关如何在R中执行此操作的任何建议?谢谢!

2 个答案:

答案 0 :(得分:2)

对于坐标与频率的简单绘图,这里有一个例子:

#Example data:
MAF=runif(1000,min=0,max=1)
COORD=runif(1000,min=0,max=100000)
test.df=data.frame(COORD,MAF)

#plot
plot(test.df$COORD,test.df$MAF)

在图中,您不需要示例数据,但需要将您的表名替换为test.df

如果你需要用颜色/标签等美化它,也可以这样做:

plot(test.df$COORD,test.df$MAF, col="red", pch=18)

OR

library(ggplot2)
p=ggplot(test.df,aes(COORD,MAF))
p + geom_point()

答案 1 :(得分:1)

我认为这是非常普遍的Q,而不是与Q相关的程序。我不确定是否有任何适当的资源可以在SO中标记以获得答案(可能是谷歌基因组学,但是更多的是解决您的代码问题) 。但是,我可以向您指出您可以开始使用的Web上的一些资源。

http://ged.msu.edu/angus/tutorials-2011/allele_freq_plots_R.html

https://www.biostars.org/p/18954/

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390227/

https://biodatamining.biomedcentral.com/articles/10.1186/1756-0381-6-18

您可以从这些开始,当您遇到路障时,您可以粘贴无法在SO中成功运行的代码。