从uniprotID和特定残基中检索13mer肽序列

时间:2018-04-14 03:01:13

标签: python r bioinformatics bioconductor protein-database

我有一个UniprotID列表,其中包含相应的相关残留物(例如Q7TQ48_ S 442)。我需要检索蛋白质序列中特定位点周围的+/- 6个残基(在这个例子中,我需要的序列是DIEAEA S EERQQE)。 您能否建议使用Python,R或已有的网络工具为ID列表+感兴趣的残留物做一个方法? 谢谢, Emanuele的

1 个答案:

答案 0 :(得分:0)

如果我从https://www.uniprot.org/uploadlists/或通过上传文件向UniProt输入蛋白质ID列表,我会得到一份结果表。在表的顶部,有一个选项允许您选择列 - 一个选项是肽序列。 (到目前为止还没有编程 - 只需上传你感兴趣的UID列表)。

现在,要提取特定序列,可以使用substr命令在R中完成。在这里,我们想要从任一端添加/减去6:

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在您的示例中,ind = 442

要完成这项工作,您需要

  1. 将您的代码分成两个(+?)列 - UniprotID和网站索引。如果需要,您还可以包含氨基酸用于以后的分析。
  2. 创建一个只包含UniProtID的文件,该文件被送入UniProt数据库。
  3. 自定义显示的列,确保获取序列。
  4. 下载结果并将其读入R。
  5. 将原始数据框(包含网站索引)与下载的结果合并。
  6. 在您感兴趣的点附近生成序列。
  7. 完全可以在R中完成这一点 - 我曾经这样做过,但我不确定你是否需要它,除非你需要整个事情自动化。如果这就是您所需要的,我建议您查看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我经常不使用Bioconductor,所以我不熟悉这个包。当我之前使用R来获取UniProt数据时,我所追求的是在tablular输出中不可用的,我不得不修改我的代码以获得我之后的数据。  希望Bioconductor解决方案比我做的更容易。