使用python从Fastq File修复偶尔缺少序列和质量得分线

时间:2018-01-04 21:55:10

标签: python

我有几个Fastq文件,其中我偶尔会丢失数据行。例如,这里是一个正确读取所有四行

@M01698:289:000000000-AVDJ5:1:1101:15411:3896 1:N:0:GTGAATCC+TCCAGGTA

CGCGGCGATGGCGGAGCTGAATTACATTCCCAAC

+

GGGGGGGGGGGGGGGGGHHHHHHHHHHHHHHHHG

然后下一次读取只有两行没有序列和质量得分数据

@M01698:289:000000000-AVDJ5:1:1101:19764:3903 1:N:0:GTGAATCC+TCCAGGTA

+

有没有办法找到这些特定的,不完整的读取,只需在上方和下方添加一个空行,使其完整阅读?

    g=open(New file,"w")
    while True:
        ID = f.readline()
        if ID == '':
            break
        seq = f.readline()
        ID2 = f.readline()
        qs = f.readline()
    if seq.contains("+"):
        newseq=seq.replace("/n" "+" "/n")
    else:
        newseq=seq

    g.write(ID)
    g.write(newseq)
    g.write(ID2)
    g.write(qs)

0 个答案:

没有答案