Question

我正在尝试解压缩fastq.gz文件，然后分析其中的测序数据。但是，以后的分析依赖于解压缩文件中的行的保留（压缩文件中的第1行必须是解压缩文件中的第1行）。

当我手动查看文件时，在我看来，使用gunzip解压缩fatsq.gz文件时会保留行顺序（我不希望其他任何内容）。但是，下游分析失败，因为尚未从原始文件中保留顺序。我错过了关于解压缩过程的一些内容吗？

似乎发生了以下情况。

Sequencer将数据写入fastq.txt：

line1
line2
line3
lin4

然后将其拉入fastq.gz。然后我使用gunzip解压缩并且看起来像下面那样，行顺序被中断：

line2
line1
line4
line3

Answer 1

gzip / gunzip周期不应 - 我们可以合理地确信它不 - 修改文件内容。此外，在这种情况下，数据损坏和算法错误通常会显示为一堆垃圾，而不是整齐排列的文本行。

一些替代方案：

您的音序器实际上并没有实际输出正确排序的那些行。
如果涉及多个未压缩文件，则序列发生器可能与gzip -c file* > fastq.gz相同，输入文件名为file1 file2 ... file9 file10。当file*按字母顺序展开此类文件时，file10将在file2之前处理，从而搞乱输出中的订单。
如果涉及多个压缩文件，则在解压缩时可能会发生同样的错误。