我想使用Gene Ontology术语来获取Uniprot中的相关序列。手动操作很简单,但是,我想用python来实现它。有人有想法吗?例如,我有GO:0070337,然后我想在fasta文件中下载所有搜索结果。谢谢!
答案 0 :(得分:3)
要完全自动化,我建议使用requests
:
import requests
from StringIO import StringIO # Python 2
from io import StringIO # Python 3
params = {"query": "GO:0070337", "format": "fasta"}
response = requests.get("http://www.uniprot.org/uniprot/", params)
for record in SeqIO.parse(StringIO(r.text), "fasta"):
# Do what you need here with your sequences.
答案 1 :(得分:1)
我会使用UniProt提供的其余界面。您只需根据您的要求构建搜索查询 - 即您的GO术语,种类和文件格式。
此查询将为您提供所有具有GO术语的蛋白质结合的人类蛋白质,这些蛋白质尚未以fasta格式进行审核。 http://www.uniprot.org/uniprot/?query=%28go%3A%22protein+binding+%5B0005515%5D%22+AND+organism%3A%22Homo+sapiens+%5B9606%5D%22%29+AND+reviewed%3Ano&sort=score&format=fasta
更多详情,请访问: http://www.uniprot.org/faq/28