Plink:将数据子集导出到txt或csv

时间:2014-05-22 18:55:44

标签: csv extract bioinformatics

我在PLINK中执行了GWAS,现在我想在一个名为snps.txt的文件中查看每行列出的一小组SNP的数据。

我想将PLINK中针对特定SNP的数据导出到.txt.csv文件中。理想情况下,此文件将具有各个ID以及这些SNP的基因型,以便稍后我可以将其与我的表型文件合并,并执行其他分析和绘图。

有一种简单的方法吗?我知道我可以使用--extract仅请求特定的SNP,但我找不到告诉PLINK将数据导出为“可导出的”基于文本的格式的方法。

1 个答案:

答案 0 :(得分:4)

如果您使用的是经典plink(1.07),则应考虑升级到plink 1.9。它速度更快,并支持更多格式。这个答案适用于plink 1.9。

将二进制plink数据转换为.csv文件

听起来您的问题是您无法将二进制数据转换为常规的plink文本文件。

使用recode选项很容易。应该在没有任何参数的情况下使用它来转换为plink文本格式:

plink --bfile gwas_file --recode --extract snps.txt --out gwas_file_text

如果您想在之后将.ped数据转换为csv,则可以执行以下操作:

cut -d " " -f2-2,7- --output-delimiter=, gwas_file_text.ped

这将生成一个逗号分隔的文件,其中第一列中包含ID,然后是基因类型。

将plink数据转换为其他基于文本的文件格式

请注意,您还可以将数据转换为许多其他text-based filetypes,所有这些都在the docs中进行了描述。

其中一种是常见的变体调用格式(VCF),它根据请求将snps和个人ID的文件全部放在一个文件中:

plink --bfile gwas_file --recode vcf --extract snps.txt --out gwas_file_text