我很惊讶,我正在使用python将一个长DNA序列(4699673字符)切成特定长度的supstring,它在结果有问题后正常工作,71结果良好\ n启动apear结果对于少数切片然后再次更正切片,依此类推整个长文件
代码:
import sys
filename = open("out_filePU.txt",'w')
sys.stdout = filename
my_file = open("GCF_000005845.2_ASM584v2_genomic_edited.fna")
st = my_file.read()
length = len(st)
print ( 'Sequence Length is, :' ,length)
for i in range(0,len(st[:-9])):
print(st[i:i+9], i)
figure shows the error from the result file
请我就此提出建议。
答案 0 :(得分:1)
您的序列文件包含多行,并且在每行的末尾有一个换行符\n
。您可以使用st = my_file.read().replace("\n", "")
删除它们。
答案 1 :(得分:0)
尝试PROC SQL;
CREATE TABLE work.dictionary as
SELECT
libname as LIBRARY,
memname as DATASET,
name as VARIABLE_NAME,
type,
length,
format,
label
FROM DICTIONARY.COLUMNS
WHERE memname in ("dataset_name") /* Replace this value */
;
QUIT;
替换任何换行符或其他空格(您需要在脚本顶部添加st = re.sub('\\s', '', my_file.read())
)。
然后import re
以9个字符为增量逐步查看数据。否则你每次只前进一个角色:这就是为什么你可以看到输出中的对角线模式。