如何将Ensembl ID转换为R中的基因符号?

时间:2015-02-16 14:22:14

标签: r dataframe bioinformatics bioconductor

我在一列中有一个包含Ensembl ID的data.frame;我想为该列的值找到相应的基因符号,并将它们添加到我的数据框中的新列。 我使用了bioMaRt但它找不到任何Ensembl ID!

以下是我的示例数据(df[1:2,]):

row.names organism    gene
41  Homo-Sapiens ENSP00000335357
115 Homo-Sapiens ENSP00000227378

我希望得到像这样的东西

row.names organism    gene         id
41  Homo-Sapiens ENSP00000335357   CDKN3
115 Homo-Sapiens ENSP00000227378   HSPA8

这是我的代码:

library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
df$id <- NA
G_list <- getBM(filters= "ensembl_gene_id", attributes= c("ensembl_gene_id",
"entrezgene", "description"),values=genes,mart= mart)

然后,当我检查G_list

时,我得到了这个
[1] ensembl_gene_id entrezgene      description  <0 rows> (or 0-length row.names)

所以我无法将G_list添加到我的df中!因为没有什么可以补充的!

先谢谢,

2 个答案:

答案 0 :(得分:16)

这是因为您gene列中的值不是基因ID,它们是肽ID(它们以ENSP开头)。要获取所需信息,请尝试将ensembl_gene_id替换为ensembl_peptide_id

G_list <- getBM(filters = "ensembl_peptide_id", 
                attributes = c("ensembl_peptide_id", "entrezgene", "description"),
                values = genes, mart = mart)

此外,您真正需要的是hgnc_symbol

以下是获得输出的总代码:

library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
df<-df[,-4]
G_list <- getBM(filters= "ensembl_peptide_id", attributes= c("ensembl_peptide_id","hgnc_symbol"),values=genes,mart= mart)
merge(df,G_list,by.x="gene",by.y="ensembl_peptide_id")

答案 1 :(得分:1)

我尝试了几个R程序包(mygene,org.Hs.eg.db,biomaRt,EnsDb.Hsapiens.v79),将Ensembl.gene转换为gene.symbol,发现EnsDb.Hsapiens.v79程序包/基因数据库提供最佳的转换质量(就能够将大部分Ensembl.gene转换为gene.symbol而言)。

如果尚未运行此命令,请安装软件包: BiocManager :: install(“ EnsDb.Hsapiens.v79”)

library(EnsDb.Hsapiens.v79)

# 1. Convert from ensembl.gene to gene.symbol
ensembl.genes <- c("ENSG00000150676", "ENSG00000099308", "ENSG00000142676", "ENSG00000180776", "ENSG00000108848", "ENSG00000277370", "ENSG00000103811", "ENSG00000101473")

geneIDs1 <- ensembldb::select(EnsDb.Hsapiens.v79, keys= ensembl.genes, keytype = "GENEID", columns = c("SYMBOL","GENEID"))

# 2. Convert from gene.symbol to ensembl.gene
geneSymbols <-  c('DDX26B','CCDC83',  'MAST3', 'RPL11', 'ZDHHC20',  'LUC7L3',  'SNORD49A',  'CTSH', 'ACOT8')

geneIDs2 <- ensembldb::select(EnsDb.Hsapiens.v79, keys= geneSymbols, keytype = "SYMBOL", columns = c("SYMBOL","GENEID"))

用于转换的其他可用R包/基因数据库可以参考this GitHub page

我对bioinformatics.stackexchange中类似问题的回答。