Question

我有一个基因序列–

"acguccgcaagagaagccuuaauauauucaaaaagcuacgccucagauuucgcgcucgagcccaaaacaacugguguacggguugaucacaucaaaugaagucgcuaaagucggugaucucacuauccuugucuucggcuuuugcucucucggcuaucaucuaagcaggcgaguuccauggugaccggaacgacggcuacuggaguccaugaucgcaagcgucgggcugggguaaaagaggcucagcucauaauaguccgccccaccaguacgggacucgauaggccccgucguugccguagaaacgcaauuuuccucagacccacuauacgcaccucgauuuagcaugguuccgggguugcgcuuugagaaucauacguaaggaucggaaccuaggaaugcaccacagaacuuugaaauacuagaacaaguugauugacaacggaguaucggcgccccacauuuaacgaauaauugcaggcgccagacgaugcuaggugcguccguaucaagauucgaggucgcuacuggcuucgcuugccgaucgagcucagaguuugugagaguuguuacuaauugcguggucgccuaauauccuugauacuacguggguguacuagacaucccggacagaaaaucucuuaaacgcuagaguucucuuggaagcgccugcacuucuugugaacauacgaugauagccacucuaagcccaacgcacuucgcuuggcccacauugcccccagagcuuauucaucgacaggcguuccacucuuggauucaucaguaaacuuuauuauacgugguaagcgugcuuauagcugucggaaucucacuuaggcggauugaagugagacagccugaaaguaaccguguacaggcgccgucaauguguuuugagugugcaccuacaaaaaguguuauuuaggcaggggagcuuuguaguuucuuuagaagagccgcgaaugaaccaacgguagacugcgagcgcguucaaccuaau"

我想剪接RNA，并想提取两个列表（外显子和内含子）。关键在于RNA的内含子部分以gu开始，以ag结尾。但是，如果ag出现在gu之前，则它是外显子的一部分，而不是内含子。

def splice(sequence):
    introns = list()
    exons = list()

    while(sequence.count("gu")):

        if "gu" not in sequence:
            break
        else:    

            exons.append(sequence[:sequence.find("gu")])
            sequence = sequence[sequence.find("gu"):]

        if "ag" not in sequence:
            break
        else:

            introns.append(sequence[:sequence.find("ag")+2])
            sequence = sequence[sequence.find("ag")+2:]

    return introns, exons

这是我到目前为止所拥有的。进行得很顺利，但是问题开始于当出现gu且在其余字符串中没有ag时结束。

输出：

Exons:
['ac',
 'agaagccuuaauauauucaaaaagcuacgccucagauuucgcgcucgagcccaaaacaacug',
 'ucgcuaaa',
 'caggcga',
 'uccaugaucgcaagc',
 'aggcucagcucauaaua',
 'uacgggacucgauaggcccc',
 'aaacgcaauuuuccucagacccacuauacgcaccucgauuuagcaug',
 'aaucauac',
 'gaucggaaccuaggaaugcaccacagaacuuugaaauacuagaacaa',
 'uaucggcgccccacauuuaacgaauaauugcaggcgccagacgaugcuag',
 'auucgag',
 'cucaga',
 'a',
 'acaucccggacagaaaaucucuuaaacgcuaga',
 'cgccugcacuucuu',
 'ccacucuaagcccaacgcacuucgcuuggcccacauugcccccagagcuuauucaucgacaggc',
 'uaaacuuuauuauac',
 'c',
 'cu',
 'gcggauugaa',
 'acagccugaaa',
 'gcgcc',
 'u',
 'u',
 'gcaggggagcuuu',
 'uuucuuuagaagagccgcgaaugaaccaacg',
 'acugcgagcgc']

Introns:
['guccgcaag',
 'guguacggguugaucacaucaaaugaag',
 'gucggugaucucacuauccuugucuucggcuuuugcucucucggcuaucaucuaag',
 'guuccauggugaccggaacgacggcuacuggag',
 'gucgggcugggguaaaag',
 'guccgccccaccag',
 'gucguugccguag',
 'guuccgggguugcgcuuugag',
 'guaag',
 'guugauugacaacggag',
 'gugcguccguaucaag',
 'gucgcuacuggcuucgcuugccgaucgag',
 'guuugugag',
 'guuguuacuaauugcguggucgccuaauauccuugauacuacguggguguacuag',
 'guucucuuggaag',
 'gugaacauacgaugauag',
 'guuccacucuuggauucaucag',
 'gugguaag',
 'gugcuuauag',
 'gucggaaucucacuuag',
 'gugag',
 'guaaccguguacag',
 'gucaauguguuuugag',
 'gugcaccuacaaaaag',
 'guuauuuag',
 'guag',
 'guag']

Answer 1

我使用正则表达式修复了查询。 def splice（gene_Sequence）：＃正则表达式查找'gu'和'ag'正则表达式= r“ gu（？：\ w {0，}？）ag”内含子= re.findall（regex，gene_Sequence）内含子内含子：exon = gene_Sequence.replace（intron，“”）返回内含子，外显子

RNA拼接Python

1 个答案: