搜索具有退化位置的图案

时间:2013-08-29 22:40:21

标签: python sequence bioinformatics biopython

我有一个15-mer核苷酸基序,它使用简并核苷酸序列。示例:ATNTTRTCNGGHGCN。

我会搜索一组序列以发现这个主题。但是,我的其他序列是精确序列,即它们没有歧义。

我已尝试在序列中执行for循环来搜索此内容,但我无法进行非精确搜索。我使用的代码是在Biopython cookbook上的代码之后建模的。

for pos,seq in m.instances.search(test_seq):
    print pos, seq

我想搜索非精确15-mer的所有可能的精确实例。是否有可用的功能,或者我是否必须为此定义自己的功能? (我可以做后者,只是想与世界三重检查我在继续之前没有重复别人的努力 - 我已经浏览了我认为是文档的相关部分。)< / p>

1 个答案:

答案 0 :(得分:3)

使用Biopython的nt_search。它寻找DNA序列中的子序列,将模糊代码扩展到该位置中可能的核苷酸。例如:

>>> from Bio import SeqUtils
>>> pat = "ATNTTRTCNGGHGCN"
>>> SeqUtils.nt_search("CCCCCCCATCTTGTCAGGCGCTCCCCCC", pat)
['AT[GATC]TT[AG]TC[GATC]GG[ACT]GC[GATC]', 7]

它返回一个列表,其中第一项是搜索模式,后面是匹配的位置。