我有一个.txt
文件,其序列非常长RNAm
。我不知道序列的确切长度。
我需要做的是提取有效序列的一部分,这意味着它以“AUG
”开头,以“UAA
”“UAG
”或“{结尾{1}}”。由于序列太长,我不知道任何字母的索引或有效序列的位置。
我需要将新序列保存在另一个变量中。
答案 0 :(得分:0)
基本上,你需要做的是,不用为你编码整个事情,是:
示例字符串:
rnaSequence = 'ACGUAFBHUAUAUAGAAAAUGGAGAGAGAAAAUUUGGGGGGGAAAAAAUAAAAAGGGUAUAUAGAUGAGAGAGA'
你会想要找到'AUG'的索引和'UAA','UAG'或'UGA'的索引..这样的东西
rnaStart = rnaSequence.index(begin)
然后,您需要将字符串的切片设置为新变量
rnaSubstring = rnaSequence[rnaStart:rnaEnd+3]
在上面的字符串中,返回:
AUGGAGAGAGAAAAUUUGGGGGGGAAAAAAUAA