如何使用plink处理马赫格式化的,估算的genotyes(ENIGMA)

时间:2016-11-02 15:29:27

标签: bioinformatics genome

我已经收到了剂量形式的SNP基因型,这些基因型已经使用ENIGMA协议进行了估算。我想使用plink --dosage [...] --fam [...]分析这些数据(我认为这是正确的语法。)

对于每条染色体,我收到了一个由以下文件组成的tar文件

% tar -tf chromosome.21.tar
chunk1-ready4mach.21.imputed.dose.gz
chunk1-ready4mach.21.imputed.erate.gz
chunk1-ready4mach.21.imputed.hapDose.gz
chunk1-ready4mach.21.imputed.haps.gz
chunk1-ready4mach.21.imputed.info.draft
chunk1-ready4mach.21.imputed.info.gz
chunk1-ready4mach.21.imputed.prob.gz
chunk1-ready4mach.21.imputed.rec.gz

这些文件似乎都不符合plink's website中提到的剂量文件的规格。 (特别是,不是.dose.gz,正如我猜的那样)

有没有人有这方面的经验?我是否需要以任何方式修改这些文件?

% plink --dosage $dose --fam $fam
PLINK v1.90b3.38 64-bit (7 Jun 2016)       https://www.cog-genomics.org/plink2
(C) 2005-2016 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to plink.log.
Options in effect:
  --dosage /home/moebius/tmp/chromosome.21/chunk1-ready4mach.21.imputed.dose.gz
  --fam hammer.fam

32054 MB RAM detected; reserving 16027 MB for main workspace.
842 people (324 males, 518 females) loaded from .fam.
842 phenotype values loaded from .fam.
Using 1 thread.
842 people pass filters and QC.
Phenotype data is quantitative.
--dosage: Reading from
/home/moebius/tmp/chromosome.21/chunk1-ready4mach.21.imputed.dose.gz.
Error: Column 1 of
/home/moebius/tmp/chromosome.21/chunk1-ready4mach.21.imputed.dose.gz's header
isn't 'SNP'.

1 个答案:

答案 0 :(得分:1)

我们可以使用程序dose2plink将EMS格式的ENIGMA数据集转换为PLINK剂量格式。

示例:

./dose2plink.pl -dose chunk1.21.imputed.dose.gz -info chunk1.21.imputed.info.gz -out chunk1.21

将生成chunk1.21.pfamchunk1.21.pdat.gz