Question

我已经使用以下方法从1000genomes网站下载了1000个基因组.vcf文件：

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我尝试使用gzip解压缩这些文件，但是它们解压缩到比原件大得多的尺寸。例如，第一个文件（对于1号染色体）是1.1gb压缩，但扩展到65.78gb。

认为这可能是gzip的一个问题，我尝试了另外两种方法。一种是直接在.gz文件上运行注释工具snpEff，另一种是使用zcat解压缩文件。但是在这两种情况下，文件大小同样巨大。

我假设这不可能，但不知道为什么会这样。有没有人经历过类似的事情？

Answer 1

我检查了染色体1文件，它很好。我认为其他所有人都是。是的，高度冗余的数据可以压缩那么多。它仅压缩为60：1，其中gzip能够压缩多达1032：1。

将流分解为单独的经过压缩的64K未压缩数据，每个数据用于索引。（关联的“tbi”文件包含大gzip文件中每个部分的位置。）如果它们只是将它压缩为单个流，或者索引点相距较远，它将压缩大约68：1。 / p>