当行顺序很重要时解压缩.gz文件

时间:2015-06-16 22:40:16

标签: linux unzip

我正在尝试解压缩fastq.gz文件,然后分析其中的测序数据。但是,以后的分析依赖于解压缩文件中的行的保留(压缩文件中的第1行必须是解压缩文件中的第1行)。

当我手动查看文件时,在我看来,使用gunzip解压缩fatsq.gz文件时会保留行顺序(我不希望其他任何内容)。但是,下游分析失败,因为尚未从原始文件中保留顺序。我错过了关于解压缩过程的一些内容吗?

似乎发生了以下情况。

Sequencer将数据写入fastq.txt:

line1
line2
line3
lin4

然后将其拉入fastq.gz。然后我使用gunzip解压缩并且看起来像下面那样,行顺序被中断:

line2
line1
line4
line3

1 个答案:

答案 0 :(得分:1)

gzip / gunzip周期不应 - 我们可以合理地确信它 - 修改文件内容。此外,在这种情况下,数据损坏和算法错误通常会显示为一堆垃圾,而不是整齐排列的文本行。

一些替代方案:

  • 您的音序器实际上并没有实际输出正确排序的那些行。

  • 如果涉及多个未压缩文件,则序列发生器可能与gzip -c file* > fastq.gz相同,输入文件名为file1 file2 ... file9 file10。当file*按字母顺序展开此类文件时,file10将在file2之前处理,从而搞乱输出中的订单。

  • 如果涉及多个压缩文件,则在解压缩时可能会发生同样的错误。