我有一个UniprotID列表,其中包含相应的相关残留物(例如Q7TQ48_ S 442)。我需要检索蛋白质序列中特定位点周围的+/- 6个残基(在这个例子中,我需要的序列是DIEAEA S EERQQE)。 您能否建议使用Python,R或已有的网络工具为ID列表+感兴趣的残留物做一个方法? 谢谢, Emanuele的
答案 0 :(得分:0)
如果我从https://www.uniprot.org/uploadlists/或通过上传文件向UniProt输入蛋白质ID列表,我会得到一份结果表。在表的顶部,有一个选项允许您选择列 - 一个选项是肽序列。 (到目前为止还没有编程 - 只需上传你感兴趣的UID列表)。
现在,要提取特定序列,可以使用substr
命令在R中完成。在这里,我们想要从任一端添加/减去6:
len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))
在您的示例中,ind = 442
。
要完成这项工作,您需要
完全可以在R中完成这一点 - 我曾经这样做过,但我不确定你是否需要它,除非你需要整个事情自动化。如果这就是您所需要的,我建议您查看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我经常不使用Bioconductor,所以我不熟悉这个包。当我之前使用R来获取UniProt数据时,我所追求的是在tablular输出中不可用的,我不得不修改我的代码以获得我之后的数据。 希望Bioconductor解决方案比我做的更容易。