PLINK并删除部分数据

时间:2010-07-28 17:47:26

标签: plink

我有一个使用PLINK处理的SNP文件。我列出了几千个SNP。在文件中,它们被分配NA,0,1或2中的一个。我想删除具有NA的SNP列表,即它们是单态的。问题是文件按顺序列出了所有数千个SNP,然后在一行中用空格分隔它们各自的值。根据人工检查,很难看出哪些值与哪个SNP相对应。

有没有一种简单的方法可以使用PLINK从文件中删除单形SNP?或者这最好用Python完成吗?

2 个答案:

答案 0 :(得分:1)

如果您还没有找到它,可以使用PLINK --maf删除单形SNP。

删除数据集中的单态SNP(MAF = 0.0的那些) http://www.shapeit.fr/pages/pedmap.html

答案 1 :(得分:1)

呃,不会NA意味着某些snps缺少数据值?要删除它们,您应该使用--geno命令。引用docs

  

- geno过滤掉所有缺少呼叫率的变体超过要删除的提供值(默认值为0.1)

然而,--maf命令会删除单形snps。将--maf设置为略高于0可能是明智的,因为如果以非常低的频率发现等位基因,则可能代表基因分型错误。

总而言之,您可能希望在plink命令中插入以下类型的质量控制:

--geno 0.03 --hwe 0.00001 --maf 0.00001

hwe只是常规的Hardy-Weinberg均衡)。