我有一个长基因数据框和各种形式的id(例如OMIM,Ensembl,Genatlas)。我想获得与每个基因相关的所有SNP的列表。 (这与this question相反。)
到目前为止,我发现的最佳解决方案是使用biomaRt package (bioconductor)。有一个我需要做的查找示例here。符合我的目的,这是我的代码:
library(biomaRt)
#load the human variation data
variation = useEnsembl(biomart="snp", dataset="hsapiens_snp")
#look up a single gene and get SNP data
getBM(attributes = c(
"ensembl_gene_stable_id",
'refsnp_id',
'chr_name',
'chrom_start',
'chrom_end',
'minor_allele',
'minor_allele_freq'),
filters = 'ensembl_gene',
values ="ENSG00000166813",
mart = variation
)
这将输出一个如下所示的数据框:
ensembl_gene_stable_id refsnp_id chr_name chrom_start chrom_end minor_allele minor_allele_freq
1 ENSG00000166813 rs8179065 15 89652777 89652777 T 0.242412
2 ENSG00000166813 rs8179066 15 89652736 89652736 C 0.139776
3 ENSG00000166813 rs12899599 15 89629243 89629243 A 0.121006
4 ENSG00000166813 rs12899845 15 89621954 89621954 C 0.421126
5 ENSG00000166813 rs12900185 15 89631884 89631884 A 0.449681
6 ENSG00000166813 rs12900805 15 89631593 89631593 T 0.439297
(4612行)
代码有效,但运行时间非常长。对于上述情况,大约需要45秒。我想也许这与等位基因频率有关,服务器可能是在飞行中计算的。但只查看SNP的最小值只需要25秒。我有几千个基因,所以这需要一整天(假设没有超时或其他错误)。这不对。我的网络连接速度不慢(20-30 mbit)。
我尝试在每个查询中查找更多基因。这确实有点帮助。一次查找10个基因的速度大约是查找单个基因的10倍。
获得与基因ID载体相关的SNP载体的最佳方法是什么?
如果我可以下载两个表,一个包含基因及其位置,一个包含SNP及其位置,那么我可以使用 dplyr (或者 data.table)轻松解决此问题)。我还没能找到这样的桌子。
答案 0 :(得分:5)
由于您使用的是R,因此这是一个使用包rentrez的想法。它利用NCBI的Entrez数据库系统,尤其是eutils函数elink。你必须围绕这个编写一些代码并且可能调整参数,但这可能是一个好的开始。
library(rentrez)
# for converting gene name -> gene id
gene_search <- entrez_search(db="gene", term="(PTEN[Gene Name]) AND Homo sapiens[Organism]", retmax=1)
geneId <- gene_search$ids
# elink function
snp_links <- entrez_link(dbfrom='gene', id=geneId, db='snp')
# access results with $links
length(snp_links$links$gene_snp)
5779
head(snp_links$links$gene_snp)
'864622690' '864622594' '864622518' '864622451' '864622387' '864622341'
我建议您手动仔细检查SNP的数量是否与您感兴趣的基因有关 - 您可能需要进一步向下钻取并通过转录等进行限制......
对于多基因ID:
multi_snp_links <- entrez_link(dbfrom='gene', id=c("5728", "374654"), db='snp', by_id=TRUE)
lapply(multi_snp_links, function(x) head(x$links$gene_snp))
1. '864622690' '864622594' '864622518' '864622451' '864622387' '864622341'
2. '797045093' '797044466' '797044465' '797044464' '797044463' '797016353'
结果按基因分组by_id=TRUE