我在PLINK中执行了GWAS,现在我想在一个名为snps.txt
的文件中查看每行列出的一小组SNP的数据。
我想将PLINK中针对特定SNP的数据导出到.txt
或.csv
文件中。理想情况下,此文件将具有各个ID以及这些SNP的基因型,以便稍后我可以将其与我的表型文件合并,并执行其他分析和绘图。
有一种简单的方法吗?我知道我可以使用--extract
仅请求特定的SNP,但我找不到告诉PLINK将数据导出为“可导出的”基于文本的格式的方法。
答案 0 :(得分:4)
如果您使用的是经典plink(1.07),则应考虑升级到plink 1.9。它速度更快,并支持更多格式。这个答案适用于plink 1.9。
听起来您的问题是您无法将二进制数据转换为常规的plink文本文件。
使用recode选项很容易。应该在没有任何参数的情况下使用它来转换为plink文本格式:
plink --bfile gwas_file --recode --extract snps.txt --out gwas_file_text
如果您想在之后将.ped数据转换为csv,则可以执行以下操作:
cut -d " " -f2-2,7- --output-delimiter=, gwas_file_text.ped
这将生成一个逗号分隔的文件,其中第一列中包含ID,然后是基因类型。
请注意,您还可以将数据转换为许多其他text-based filetypes,所有这些都在the docs中进行了描述。
其中一种是常见的变体调用格式(VCF),它根据请求将snps和个人ID的文件全部放在一个文件中:
plink --bfile gwas_file --recode vcf --extract snps.txt --out gwas_file_text