Question

我有一个这样的fasta文件： myfasta.fasta

>1_CDS
AAAAATTTCTGGGCCCCGGGGG
AAATTATTA
>2_CDS
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>3_CDS
TTTGGGAATTAAACCCT
>4_CDS
TTTGGGAATTAAACCCT
>5_rRNA
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>6_tRNA
TTAAAAATTTCTGGGCCCCGGGAAAAAA

我有一个代码，我想根据其ID具有匹配模式（例如'CDS'，'tRNA'等）的序列来分离序列。在下面的代码中，我尝试使用startswith并同时匹配模式这似乎不起作用。有人可以帮我如何在python中查找两个条件吗？

代码：python mycode.py myfasta.fasta

#!/usr/bin/env python
import sys
import os
myfasta = sys.argv[1]
fasta = open(myfasta)

for line in fasta:
    if line.startswith('>') and 'CDS' in line:
        print(line)
    else:
        print(line)

预期的输出（如果我使用CDS）：

>1_CDS
AAAAATTTCTGGGCCCCGGGGG
AAATTATTA
>2_CDS
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>3_CDS
TTTGGGAATTAAACCCT
>4_CDS
TTTGGGAATTAAACCCT

Answer 1

这是适合您的代码。如果一行具有CDS，则将打印该行和下一行。 Sub在打印行时删除结束符。

Class

编辑：您可以按照以下代码删除elif部分：

strip()

Answer 2

Maanijou的回答很好。

另外，考虑使用迭代器代替。

编辑：根据您的评论更新了代码

#!/usr/bin/env python
import sys
import os
myfasta = sys.argv[1]
fasta = open(myfasta, "r+")

file_contents = iter(fasta)

try:
    print_flag = True
    while True:
        line = file_contents.next()
        if line.startswith('>'):
            if "CDS" in line:
                print (line.strip())
                print_flag = True
            else:
                print_flag = False
        else:
            if print_flag:
                print (line.strip())

except StopIteration:
    print ("Done")
    fasta.close()

说明

file_contents = iter(fasta)将可迭代文件对象转换为迭代器，您可以在该迭代器上继续调用next()，直到用完所有要读取的内容为止

为什么我不建议调用readlines，因为其他一些答案是，有时fasta文件可能很大，而调用readlines会占用大量内存。

如果一行满足您的搜索要求，则只需将其打印出来，然后打印下一行；否则，您只需阅读下一行而不执行任何操作，即可，

更新说明

由于文件模式而导致属性错误，我无法在本地复制它，但我认为以正确的模式打开文件应该可以解决此问题
您现在说过CDS可能有多个基因组序列更新了代码，以在文件中打印1个CDS头文件的所有基因组序列

我用修改过的fasta文件进行了测试

>1_CDS
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGCG
>2_CDS
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>3_CDS
TTTGGGAATTAAACCCT
>4_CDS
TTTGGGAATTAAACCCT
>5_rRNA
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>6_tRNA
TTAAAAATTTCTGGGCCCCGGGAAAAAA

此输出

python fasta.py fasta.fasta
>1_CDS
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGGG
AAAAATTTCTGGGCCCCGGGCG
>2_CDS
TTAAAAATTTCTGGGCCCCGGGAAAAAA
>3_CDS
TTTGGGAATTAAACCCT
>4_CDS
TTTGGGAATTAAACCCT
Done

Answer 3

这是您想要的吗？

#!/usr/bin/env python
import sys
import os
from collections import defaultdict

myfasta = sys.argv[1]
with open(myfasta) as fasta:
    data = fasta.read().splitlines()

pattern_data = defaultdict(list)
index = 0
while index < len(data):
    if data[index].startswith('>'):
        start = data[index].index('_') + 1
        key = data[index][start:]
        pattern_data[key].append(data[index + 1])
    index += 2

此时，您可以随意对已排序的数据进行任何操作。

以上假设您解析的整个文件都遵循上面显示的确切格式：1行以“>”开头，id是其后的一行。如果后面有多行，则代码需要稍作修改。

编辑：我只是阅读fasta文件。我现在知道，它们被识别后实际上可能具有比一行更长的序列。因此，确实需要修改上述代码以解决多行序列。更为通用的方法如下：

#!/usr/bin/env python
import sys
import os
from collections import defaultdict

myfasta = sys.argv[1]
with open(myfasta) as fasta:
    data = fasta.read().splitlines()

id_line_indices = [index for index, line in enumerate(data) if line.startswith('>')]
id_line_indices.append(len(data))
pattern_buckets = defaultdict(list)

i = 0
while i < len(id_line_indices) - 1:
    start = data[id_line_indices[i]].index('_') + 1
    key = data[id_line_indices[i]][start:]

    sequence = [data[index] for index in range(id_line_indices[i] + 1, id_line_indices[i + 1])]
    sequence = ''.join(sequence)

    pattern_buckets[key].append(sequence)
    i += 1

对于上述数据集，这仍然可以获得相同的结果。例如，

print(pattern_buckets['CDS'])
print(pattern_buckets['rRNA'])

将帮助您

['AAAAATTTCTGGGCCCCGGGGG', 'TTAAAAATTTCTGGGCCCCGGGAAAAAA', 'TTTGGGAATTAAACCCT', 'TTTGGGAATTAAACCCT']
['TTAAAAATTTCTGGGCCCCGGGAAAAAA']

使用条件匹配一行中的多个模式

3 个答案:

编辑：根据您的评论更新了代码

说明

更新说明