我正在尝试解压缩fastq.gz文件,然后分析其中的测序数据。但是,以后的分析依赖于解压缩文件中的行的保留(压缩文件中的第1行必须是解压缩文件中的第1行)。
当我手动查看文件时,在我看来,使用gunzip解压缩fatsq.gz文件时会保留行顺序(我不希望其他任何内容)。但是,下游分析失败,因为尚未从原始文件中保留顺序。我错过了关于解压缩过程的一些内容吗?
似乎发生了以下情况。
Sequencer将数据写入fastq.txt:
line1
line2
line3
lin4
然后将其拉入fastq.gz。然后我使用gunzip解压缩并且看起来像下面那样,行顺序被中断:
line2
line1
line4
line3
答案 0 :(得分:1)
gzip
/ gunzip
周期不应 - 我们可以合理地确信它不 - 修改文件内容。此外,在这种情况下,数据损坏和算法错误通常会显示为一堆垃圾,而不是整齐排列的文本行。
一些替代方案:
您的音序器实际上并没有实际输出正确排序的那些行。
如果涉及多个未压缩文件,则序列发生器可能与gzip -c file* > fastq.gz
相同,输入文件名为file1 file2 ... file9 file10
。当file*
按字母顺序展开此类文件时,file10
将在file2
之前处理,从而搞乱输出中的订单。
如果涉及多个压缩文件,则在解压缩时可能会发生同样的错误。