我有一个基因符号列表,它代表两个高吞吐量数据集的交集。我有兴趣做一些GO注释和聚类,但为了做到这一点,我需要将这些基因符号转换成UniProt登录号。我的问题是,使用Python做到这一点的最佳方法是什么?
例如,'转化生长因子β-1'的基因被称为'TGFB1',其登录号为'P01137'。我正在寻找一个函数/类/模块/包,它可以让我输入TGFB1作为参数,然后给我P01137。有人可以给我一些指示吗?感谢
答案 0 :(得分:1)
获取从基因名称到PDB ID的映射,例如此JSON:http://www.rcsb.org/pdb/browse/homo_sapiens_download.jsp?rows=100000&page=1&sidx=id&sord=desc将其保存为例如" mapping.json"。
然后使用该数据获取映射:
import json
with open("mapping.json") as mapping:
map_dict = json.load(mapping)
data = map_dict["rows"]
def get_uniprot(gene_id):
for row in map_dict["rows"]:
if row["cell"][1] == gene_id:
return row["cell"][4]
print(get_uniprot("TGFB1"))