我已经继承了Canis Lupus(狗)的RNAseq输出数据的数据集。我有Ensembl格式的基因标识符,具体地说,它们看起来像是ENSCAFT00000001452.3。我正在尝试使用bioMaRt将它们转换为更常见的ID,并且需要帮助。我是R的新手,觉得自己很无知。任何帮助入门。
这些Ensembl ID是否可以转换为任何其他Ensembl ID(例如,不同种类)? 这些Ensembl ID是否可以转换为RefSeq,GI评估号?怎么
library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
........此后丢失。谢谢你的帮助。 瑞安
答案 0 :(得分:1)
这是分步示例:
加载biomaRt
库。
library(biomaRt)
作为查询输入,我们有 Canis lupus friendlyis Ensembl笔录ID(请注意,它们不是 Ensembl基因ID )。我们还需要从末尾去除点+数字,以指示注释更新。
tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3")
tx <- gsub("\\.\\d+$", "", tx)
我们现在在数据库中查询tx
ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl")
res <- getBM(
attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"),
filters = "ensembl_transcript_id",
values = tx,
mart = ensembl)
res
#ensembl_gene_id ensembl_transcript_id external_gene_name
#1 ENSCAFG00000000934 ENSCAFT00000001452 COL14A1
#2 ENSCAFG00000001086 ENSCAFT00000001656 MYC
# description
#1 collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768]
#2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
请注意,您可以使用data.frame
来获得特定attributes
的所有mart
中的listAttributes(ensembl)
。
在上面的评论中,除@GordonShumway链接之外,在Ensembl websites上还可以找到biomaRt
的另一个很好(简洁)的摘要/介绍。