使用Python将Gene Symbols列表转换为UniProt登录号

时间:2016-08-19 09:05:12

标签: python converter biopython

我有一个基因符号列表,它代表两个高吞吐量数据集的交集。我有兴趣做一些GO注释和聚类,但为了做到这一点,我需要将这些基因符号转换成UniProt登录号。我的问题是,使用Python做到这一点的最佳方法是什么?

例如,'转化生长因子β-1'的基因被称为'TGFB1',其登录号为'P01137'。我正在寻找一个函数/类/模块/包,它可以让我输入TGFB1作为参数,然后给我P01137。有人可以给我一些指示吗?感谢

1 个答案:

答案 0 :(得分:1)

获取从基因名称到PDB ID的映射,例如此JSON:http://www.rcsb.org/pdb/browse/homo_sapiens_download.jsp?rows=100000&page=1&sidx=id&sord=desc将其保存为例如" mapping.json"。

然后使用该数据获取映射:

import json


with open("mapping.json") as mapping:
    map_dict = json.load(mapping)

data = map_dict["rows"]

def get_uniprot(gene_id):
    for row in map_dict["rows"]:
        if row["cell"][1] == gene_id:
            return row["cell"][4]

print(get_uniprot("TGFB1"))