Python DNA序列切片在切片结果

时间:2018-04-19 10:40:26

标签: python sequence slice

我很惊讶,我正在使用python将一个长DNA序列(4699673字符)切成特定长度的supstring,它在结果有问题后正常工作,71结果良好\ n启动apear结果对于少数切片然后再次更正切片,依此类推整个长文件

代码:

import sys
filename  = open("out_filePU.txt",'w')
sys.stdout = filename

my_file = open("GCF_000005845.2_ASM584v2_genomic_edited.fna")
st = my_file.read()
length = len(st)
print ( 'Sequence Length is, :' ,length)
for i in range(0,len(st[:-9])):
print(st[i:i+9], i)

figure shows the error from the result file

请我就此提出建议。

2 个答案:

答案 0 :(得分:1)

您的序列文件包含多行,并且在每行的末尾有一个换行符\n。您可以使用st = my_file.read().replace("\n", "")删除它们。

答案 1 :(得分:0)

尝试PROC SQL; CREATE TABLE work.dictionary as SELECT libname as LIBRARY, memname as DATASET, name as VARIABLE_NAME, type, length, format, label FROM DICTIONARY.COLUMNS WHERE memname in ("dataset_name") /* Replace this value */ ; QUIT; 替换任何换行符或其他空格(您需要在脚本顶部添加st = re.sub('\\s', '', my_file.read()))。

然后import re以9个字符为增量逐步查看数据。否则你每次只前进一个角色:这就是为什么你可以看到输出中的对角线模式。

enter image description here