我有一个名为“annotation”的目录,其中有多个以样本ID命名的子目录,如“A21”,“B32”,“D54”等。例如,在一个名为“A21”的子目录中,将有一个名为“A21.snp.annotation.xls”的excel文件,其中我想提取前四列,即第21和第72列。
提取六列后,文件将以如下相似的方式显示:
chr pos ref alt gene snp
1 123 A T gene1 rs111
2 234 C G gene2 rs222
最后一列“snp”可以用作不同样本的索引,所以我想使用“snp”作为索引合并不同的样本,最终文件将以下列方式显示:
snp A21 B32 D54
rs111 AT AT TT
rs222 CG CC GG
然后我想计算ref等位数,最终文件将显示为
snp A21 B32 D54
rs111 1 1 0
rs222 1 2 0