在子集化的大型VCF文件中,变体位置有时会被ID替换?

时间:2016-05-27 05:16:46

标签: r bioinformatics

我有一个大型VCF文件,我想从中提取某些列和信息,并将其与变体位置匹配。我以为我有这个工作但是对于一些变体而不是相应的变体位置我给了ID而不是?

我的代码如下所示:

# see what fields are in this vcf file
scanVcfHeader("file.vcf")

# define paramaters on how to filter the vcf file
AN.adj.param <- ScanVcfParam(info="AN_Adj")

# load ALL allele counts (AN) from vcf file 
raw.AN.adj. <- readVcf("file.vcf", "hg19", param=AN.adj.param)

# extract ALL allele counts (AN) and corressponding chr location with allele tags from vcf file - in dataframe/s4 class
sclass.AN.adj <- (info(raw.AN.adj.))

结果如下:

               AN_adj
1:13475_A/T    91
1:14321_G/A    73
rs12345        87
1:15372_A/G    60
1:16174_G/A    41
1:16174_T/C    62
1:16576_G/A    87
rs987654       56

我希望结果如下:

               AN_adj
1:13475_A/T    91
1:14321_G/A    73
1:14873_C/T    87
1:15372_A/G    60
1:16174_G/A    41
1:16174_T/C    62
1:16576_G/A    87
1:18654_A/T    56

有关此处发生了什么以及如何解决问题的任何想法?

如果有一种方法可以使用CHROM和位置字段附加变体位置,我也会很高兴,但是我无法请求来自这些字段的研究数据,因为它们是用于创建变体位置的GR的基本字段。 / p>

0 个答案:

没有答案