验证gunzip减压

时间:2015-08-16 01:42:39

标签: verification data-integrity gunzip

我正在处理我使用以下联系的大型数据集:cat file1.fasta.gz file2.fasta.gz > newfile.fasta.gz

然后我使用:gunzip newfile.fasta.gz解压缩newfile,在一些生物信息学软件中使用它。枪弹需要永远,我离开电脑后再回来。

我担心这个过程可能会在某个时候失败,留下一个部分文件。有没有办法确定newfile.fasta是否包含newfile.fasta.gz的完整解压内容?

inb4:"不要离开你的电脑"

1 个答案:

答案 0 :(得分:0)

应该没问题。如果您担心,那么您可以检查文件大小: newfile.fasta.gz的大小应为file1.fasta.gz + file2.fasta.gz。

由于看起来你已经解压缩了新文件,你可以仔细检查每个fasta文件中的序列条目数。

$ gunzip -c file1.fasta.gz | grep -c '^>'
$ gunzip -c file2.fasta.gz | grep -c '^>'
$ grep -c '^>' newfile.fasta

或者你可以用“grep -c'^>'”代替wc。