从Ensembl基因ID转换为其他标识符

时间:2018-08-29 23:37:30

标签: r biomart

我已经继承了Canis Lupus(狗)的RNAseq输出数据的数据集。我有Ensembl格式的基因标识符,具体地说,它们看起来像是ENSCAFT00000001452.3。我正在尝试使用bioMaRt将它们转换为更常见的ID,并且需要帮助。我是R的新手,觉得自己很无知。任何帮助入门。

这些Ensembl ID是否可以转换为任何其他Ensembl ID(例如,不同种类)? 这些Ensembl ID是否可以转换为RefSeq,GI评估号?怎么

从此开始:

library('biomaRt')

mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

genes <- df$genes

........此后丢失。谢谢你的帮助。 瑞安

1 个答案:

答案 0 :(得分:1)

这是分步示例:

  1. 加载biomaRt库。

    library(biomaRt)
    
  2. 作为查询输入,我们有 Canis lupus friendlyis Ensembl笔录ID(请注意,它们不是 Ensembl基因ID )。我们还需要从末尾去除点+数字,以指示注释更新。

    tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3")
    tx <- gsub("\\.\\d+$", "", tx)
    
  3. 我们现在在数据库中查询tx

    中的Ensembl脚本ID。
    ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl")
    res <- getBM(
        attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"),
        filters = "ensembl_transcript_id",
        values = tx,
        mart = ensembl)
    res
    #ensembl_gene_id ensembl_transcript_id external_gene_name
    #1 ENSCAFG00000000934    ENSCAFT00000001452            COL14A1
    #2 ENSCAFG00000001086    ENSCAFT00000001656                MYC
    #                                                                   description
    #1               collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768]
    #2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
    

请注意,您可以使用data.frame来获得特定attributes的所有mart中的listAttributes(ensembl)

在上面的评论中,除@GordonShumway链接之外,在Ensembl websites上还可以找到biomaRt的另一个很好(简洁)的摘要/介绍。