Question

我有一个UniprotID列表，其中包含相应的相关残留物（例如Q7TQ48_ S 442）。我需要检索蛋白质序列中特定位点周围的+/- 6个残基（在这个例子中，我需要的序列是DIEAEA S EERQQE）。您能否建议使用Python，R或已有的网络工具为ID列表+感兴趣的残留物做一个方法？谢谢， Emanuele的

Answer 1

如果我从https://www.uniprot.org/uploadlists/或通过上传文件向UniProt输入蛋白质ID列表，我会得到一份结果表。在表的顶部，有一个选项允许您选择列 - 一个选项是肽序列。（到目前为止还没有编程 - 只需上传你感兴趣的UID列表）。

现在，要提取特定序列，可以使用substr命令在R中完成。在这里，我们想要从任一端添加/减去6：

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在您的示例中，ind = 442。

要完成这项工作，您需要

将您的代码分成两个（+？）列 - UniprotID和网站索引。如果需要，您还可以包含氨基酸用于以后的分析。
创建一个只包含UniProtID的文件，该文件被送入UniProt数据库。
自定义显示的列，确保获取序列。
下载结果并将其读入R。
将原始数据框（包含网站索引）与下载的结果合并。
在您感兴趣的点附近生成序列。

完全可以在R中完成这一点 - 我曾经这样做过，但我不确定你是否需要它，除非你需要整个事情自动化。如果这就是您所需要的，我建议您查看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我经常不使用Bioconductor，所以我不熟悉这个包。当我之前使用R来获取UniProt数据时，我所追求的是在tablular输出中不可用的，我不得不修改我的代码以获得我之后的数据。希望Bioconductor解决方案比我做的更容易。

从uniprotID和特定残基中检索13mer肽序列

1 个答案: