如何在vcf(变体调用格式)文件中进行上下文依赖替换(更新字段)?

时间:2016-08-21 14:09:58

标签: python awk sed string-substitution

我有一个vcf文件,如下所示:

CHROM   POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  2ms01e  2ms02g  2ms03g  2ms04h

2   15882505    .   T   A   12134.90    PASS    AC=2;AF=0.250;AN=8;BaseQRankSum=-0.021;ClippingRankSum=0.000;DP=695;ExcessHet=3.6798;FS=0.523;MLEAC=2;MLEAF=0.250;MQ=60.00;MQRankSum=0.000;QD=25.18;ReadPosRankSum=1.280;SOR=0.630  GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/1:59,89:148:99:3620,0,2177:1|0:.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.:1452:|:0.5 0/1:125,209:334:99:8549,0,4529:.:.:.:.:.    0/0:130,0:130:99:0,400,5809:.:.:.:.:.   0/0:82,0:82:99:0,250,3702:.:.:.:.:.

2   15882583    .   G   T   1221.33 PASS    AC=1;AF=0.125;AN=8;BaseQRankSum=-2.475;ClippingRankSum=0.000;DP=929;ExcessHet=3.0103;FS=0.000;MLEAC=1;MLEAF=0.125;MQ=60.00;MQRankSum=0.000;QD=9.25;ReadPosRankSum=0.299;SOR=0.686   GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/0:178,0:178:99:0,539,7601:0/0:.:.:0/0:.   0/0:446,0:446:99:0,1343,16290:.:.:.:.:. 0/0:172,0:172:99:0,517,6205:.:.:.:.:.   0/1:75,57:132:99:1253,0,2863:.:.:.:.:.

第一行是标题(在其前面有其他标题信息,在此处将其删除)并且列以制表符分隔。

为了方便理解数据结构,我在此链接中共享文件的子样本(在可以下载的dropbox上): https://www.dropbox.com/sh/coihujii38t5prd/AABDXv8ACGIYczeMtzKBo0eea?dl=0

请下载大约300 Kb的文件,可以通过文本编辑器打开。这有助于更好地理解问题。

问题:

我需要进行依赖于上下文的替换(值更新)。 - 所有标题信息(标记为行的#front)都需要保持不变。

  • 不同行的值对应最后一个标题(即CHROM POS ID ....)

  • 首先,我们需要查看FORMAT列中的PG(定相基因型)字段。字段的不同标签用“:”分隔。并且SAMPLE列中的该特定字段具有相应的值(现在为2ms01e)。因此,对于第一行,样本的PG值(2ms01e)是1 | 0.

  • 现在,我们需要在同一行的FORMAT列中查看GT字段,并将其对应的值更新为与PG相同的值。即将0/1改为1 | 0。保持PG中的顺序很重要(如果它的1 | 0或0 | 1,则需要准确)。

但是,如果PG字段的值为0 / 1,0 / 0,1 / 0或任何其他值(即斜杠),则无需更改(或更新)GT字段)。

最终输出:

因此,第一行数据的GT值应改为:

GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC    0/1:59,89:148:99:3620,0,2177:1|0:.....

GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC    1|0:59,89:148:99:3620,0,2177:1|0:.....

您可以在此处看到,只有GT字段的值已更改,而所有其他字段值保持不变。

对于第二行,GT值保持不变 - 即0/0到0/0,因为此行的PG值为0/0(GT值相同,所以没有变化)。

简单方法: 如果PG字段的值可以复制粘贴到SAMPLE(2ms01e)列中的GT字段值,我认为最好。 GT字段值是第1位,PG字段是第6位,不同的字段用“:”分隔。因此,我们需要做的就是使用第6个字段中的值更新第一个字段中的值。

这种简单的方法可能会起作用,因为当PG有斜线“/”时GT也会有斜线,顺序无关紧要。 但我不确定它是否适用于每一行。但是,这将是一个简单的解决方案,我至少可以检查并确定它是否有效。

硬法: 如果简单的方法不能按预期工作,我认为考虑每个上下文都变得很重要。

上下文:

PG字段值是否带有管道(|)。如果是,则需要更改。

如果FORMAT列中没有PG字段 - 则跳过它。

FORMAT列中字段的分隔符是“:”。因此,在SAMPLE列中。因此,计算场之间的距离很重要。 GT和PG领域排名第1和第6位。

任何类型的解决方案都值得赞赏,但如果它的python更好,那么如果我的上下文改变,我可以阅读和操作它。 此外,对给定解决方案的解释将有很大帮助。

提前致谢并抱歉这么挑剔。我的计算机技能非常适中,但仍然没有编程。

干杯! :))

    -

2 个答案:

答案 0 :(得分:1)

$ cat > another_mess.awk  
$0!="" {
    n=split($10,a,":")               # split $10 at ":" to a array
    if(substr(a[6],2,1)=="|") {      # if "|" in PG
        a[1]=a[6]                    # copy PG to GT
        $10=""                       # empty $10
        for(i=1;i<=n;i++)            # rebuild $10
            $10=$10a[i] (i<n?":":"") # use ":" as delimiter
    }
    print $10           # PRINT $10 TO TEST, CHANGE TO $0                       
}

$ awk -f another_mess.awk mess.in
1|0:59,89:148:99:3620,0,2177:1|0:.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.:1452:|:0.5
0/0:178,0:178:99:0,539,7601:0/0:.:.:0/0:.

答案 1 :(得分:0)

以下答案不包含任何逻辑的详细信息,但它会为您提供一个可能的起点,以便您可以自己玩:

class VCFProcessor():

    def __init__(self):
        pass

    def load(self, filename):
        with open(filename, "rb") as f:
            self.load_string(f.read())

    def load_string(self, data):
        index = 0
        for line in data.split("\n"):
            # Skip empty rows
            if line.strip() == "":
                continue

            # Assuming there is only header and valid rows
            if self.is_valid_row(line):
                self.process_row(index, line)
            else:
                self.process_header(line)

            index += 1

    def is_valid_row(self, line):
        columns = line.split(":")
        if len(columns) == 46:
            return True

    def process_row(self, index, line):
        print "Processing line {0} with {1} columns".format(index, len(line.split(":")))

    def process_header(self, line):
        print "Header has {0} columns".format(len(line.split(":")))

if __name__ == "__main__":
    data = """CHROM POS ID REF ALT QUAL FILTER INFO FORMAT 2ms01e 2ms02g 2ms03g 2ms04h

    2 15882505 . T A 12134.90 PASS AC=2;AF=0.250;AN=8;BaseQRankSum=-0.021;ClippingRankSum=0.000;DP=695;ExcessHet=3.6798;FS=0.523;MLEAC=2;MLEAF=0.250;MQ=60.00;MQRankSum=0.000;QD=25.18;ReadPosRankSum=1.280;SOR=0.630 GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC 0/1:59,89:148:99:3620,0,2177:1|0:.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.:1452:|:0.5 0/1:125,209:334:99:8549,0,4529:.:.:.:.:. 0/0:130,0:130:99:0,400,5809:.:.:.:.:. 0/0:82,0:82:99:0,250,3702:.:.:.:.:.

    2 15882583 . G T 1221.33 PASS AC=1;AF=0.125;AN=8;BaseQRankSum=-2.475;ClippingRankSum=0.000;DP=929;ExcessHet=3.0103;FS=0.000;MLEAC=1;MLEAF=0.125;MQ=60.00;MQRankSum=0.000;QD=9.25;ReadPosRankSum=0.299;SOR=0.686 GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC 0/0:178,0:178:99:0,539,7601:0/0:.:.:0/0:. 0/0:446,0:446:99:0,1343,16290:.:.:.:.:. 0/0:172,0:172:99:0,517,6205:.:.:.:.:. 0/1:75,57:132:99:1253,0,2863:.:.:.:.:.
    """

    v = VCFProcessor()
    v.load_string(data)

希望它有所帮助。