我有一组来自基因组不同部分的SNP及其在各种群体和感兴趣的群体中的等位基因频率。我想绘制所有22个常染色体的SNP基因组坐标的等位基因频率。
基本上,我想从Sankararaman等人那里得到类似图1A的东西。 (2014)(http://www.nature.com/nature/journal/v507/n7492/fig_tab/nature12961_F1.html)除了Y轴是频率之外,所有种群都在同一个图上(没有分开),我会有彩色点而不是尖峰。
我的数据格式是这样的(MAF =次要等位基因频率,这是我想要绘制的图形)
CHR SNP COORD CLST A1 A2 MAF MAC NCHROBS
1 rs16823303 2903159 Region G A 0.01887 4 212
(它遍历区域的所有SNP,然后它为下一个区域执行它们,依此类推)
有关如何在R中执行此操作的任何建议?谢谢!
答案 0 :(得分:2)
对于坐标与频率的简单绘图,这里有一个例子:
#Example data:
MAF=runif(1000,min=0,max=1)
COORD=runif(1000,min=0,max=100000)
test.df=data.frame(COORD,MAF)
#plot
plot(test.df$COORD,test.df$MAF)
在图中,您不需要示例数据,但需要将您的表名替换为test.df
。
如果你需要用颜色/标签等美化它,也可以这样做:
plot(test.df$COORD,test.df$MAF, col="red", pch=18)
OR
library(ggplot2)
p=ggplot(test.df,aes(COORD,MAF))
p + geom_point()
答案 1 :(得分:1)
我认为这是非常普遍的Q,而不是与Q相关的程序。我不确定是否有任何适当的资源可以在SO中标记以获得答案(可能是谷歌基因组学,但是更多的是解决您的代码问题) 。但是,我可以向您指出您可以开始使用的Web上的一些资源。
http://ged.msu.edu/angus/tutorials-2011/allele_freq_plots_R.html
https://www.biostars.org/p/18954/
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390227/
https://biodatamining.biomedcentral.com/articles/10.1186/1756-0381-6-18
您可以从这些开始,当您遇到路障时,您可以粘贴无法在SO中成功运行的代码。