我有一个使用PLINK处理的SNP文件。我列出了几千个SNP。在文件中,它们被分配NA,0,1或2中的一个。我想删除具有NA的SNP列表,即它们是单态的。问题是文件按顺序列出了所有数千个SNP,然后在一行中用空格分隔它们各自的值。根据人工检查,很难看出哪些值与哪个SNP相对应。
有没有一种简单的方法可以使用PLINK从文件中删除单形SNP?或者这最好用Python完成吗?
答案 0 :(得分:1)
如果您还没有找到它,可以使用PLINK --maf
删除单形SNP。
删除数据集中的单态SNP(MAF = 0.0的那些) http://www.shapeit.fr/pages/pedmap.html
答案 1 :(得分:1)
呃,不会NA
意味着某些snps缺少数据值?要删除它们,您应该使用--geno
命令。引用docs:
- geno过滤掉所有缺少呼叫率的变体超过要删除的提供值(默认值为0.1)
然而,--maf
命令会删除单形snps。将--maf设置为略高于0可能是明智的,因为如果以非常低的频率发现等位基因,则可能代表基因分型错误。
总而言之,您可能希望在plink命令中插入以下类型的质量控制:
--geno 0.03 --hwe 0.00001 --maf 0.00001
(hwe
只是常规的Hardy-Weinberg均衡)。