Question

我很惊讶，我正在使用python将一个长DNA序列（4699673字符）切成特定长度的supstring，它在结果有问题后正常工作，71结果良好\ n启动apear结果对于少数切片然后再次更正切片，依此类推整个长文件

代码：

import sys
filename  = open("out_filePU.txt",'w')
sys.stdout = filename

my_file = open("GCF_000005845.2_ASM584v2_genomic_edited.fna")
st = my_file.read()
length = len(st)
print ( 'Sequence Length is, :' ,length)
for i in range(0,len(st[:-9])):
print(st[i:i+9], i)

figure shows the error from the result file

请我就此提出建议。

Answer 1

您的序列文件包含多行，并且在每行的末尾有一个换行符\n。您可以使用st = my_file.read().replace("\n", "")删除它们。

Answer 2

尝试PROC SQL; CREATE TABLE work.dictionary as SELECT libname as LIBRARY, memname as DATASET, name as VARIABLE_NAME, type, length, format, label FROM DICTIONARY.COLUMNS WHERE memname in ("dataset_name") /* Replace this value */ ; QUIT;替换任何换行符或其他空格（您需要在脚本顶部添加st = re.sub('\\s', '', my_file.read())）。

然后import re以9个字符为增量逐步查看数据。否则你每次只前进一个角色：这就是为什么你可以看到输出中的对角线模式。

Python DNA序列切片在切片结果

2 个答案: