我已经使用以下方法从1000genomes网站下载了1000个基因组.vcf文件:
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我尝试使用gzip解压缩这些文件,但是它们解压缩到比原件大得多的尺寸。例如,第一个文件(对于1号染色体)是1.1gb压缩,但扩展到65.78gb。
认为这可能是gzip的一个问题,我尝试了另外两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压缩文件。但是在这两种情况下,文件大小同样巨大。
我假设这不可能,但不知道为什么会这样。有没有人经历过类似的事情?
答案 0 :(得分:1)
我检查了染色体1文件,它很好。我认为其他所有人都是。是的,高度冗余的数据可以压缩那么多。它仅压缩为60:1,其中gzip能够压缩多达1032:1。
将流分解为单独的经过压缩的64K未压缩数据,每个数据用于索引。 (关联的“tbi”文件包含大gzip文件中每个部分的位置。)如果它们只是将它压缩为单个流,或者索引点相距较远,它将压缩大约68:1。 / p>