我将如何解析数千个DNA碱基的文本文件?

时间:2018-06-13 19:57:23

标签: python parsing formatting

这就是我所拥有的,我会有一堆dna基础(A,T,C,G)的大量文本文件,我想做的是每60个字符(任意)并把它放在上面一条新线,这样基地就可以分块了。但是,我也希望每个块重叠一定数量的基数。例如,如果给出了这个10个字母的块ATGGCTGCTA,并且最初的4个块块是ATGG,如果有重叠参数被指定为2,那么接下来的4个块块将是GGCT,然后是CTGC,依此类推。我知道我可能不得不考虑用python阅读,打开和编写文本文件。如果有任何资源,他们可能会指出我实现这一目标以及任何有用的提示和指示。

我将使用的文本格式化示例:

https://www.ncbi.nlm.nih.gov/nuccore/NC_000017.11?report=fasta&from=7661779&to=7687550

1 个答案:

答案 0 :(得分:1)

data = 'GAGACAGAGTCTCACTCTGTTGCACAGGCTGGAGTGCAGTGGCACAATCTCTGCTCACTGCAACCTCCTC'
chunk_size = 5
overlap = 2

for pos in range(0, len(data), chunk_size - overlap):
    print(data[pos:pos+chunk_size])

结果:

GAGAC
ACAGA
GAGTC
TCTCA
CACTC
TCTGT
...