什么是samtools mpileup结果的意思“^ F”

时间:2012-10-14 05:59:12

标签: bioinformatics fastq

这是samtools mpileup结果的一部分:

chr7    55241514        G       2786    .....................
chr7    55241515        C       2786    .....................
chr7    55241516        C       2786    .....................
chr7    55241517        G       2786    .....................
chr7    55241518        T       2786    .....................
chr7    55241519        G       2786    .$.$.$.$.$.$.$.$.$.$.
chr7    55241520        G       2776    .....................
chr7    55241521        C       2776    .....................
chr7    55241522        T       2776    .....................
chr7    55241523        G       2774    .....................
chr7    55241524        C       2774    .....................
chr7    55241525        T       2774    .....................
chr7    55241526        G       2723    .....................
chr7    55241527        G       2723    .$.$.$.$.$.$.$.$.$.$.
chr7    55241609        C       7999    ......^F.^F.^F.^F.^F.
chr7    55241610        C       7999    .....................
chr7    55241611        C       7999    .....................
chr7    55241612        A       7999    .....................
chr7    55241613        G       7999    .....................
chr7    55241614        C       7999    .....................
chr7    55241615        T       7999    .....................
chr7    55241616        T       7999    .....................

我不知道“^ F”的含义,我咨询了mpileup指挥官的帮助,符号'^'标志着读取的开始。 '^'减去33后面的字符的ASCII给出了映射质量。符号'$'表示读段的结束。它没有说“F”,有人知道这个结果中“F”的含义是什么。

2 个答案:

答案 0 :(得分:1)

欢迎来到fastq format。使用ASCII table,您将看到“F”的小数值为70.因此,与“F”相关联的质量得分为70 - 33,这为您提供了37。

假设您的堆积是使用Illumina 1.8+编码的数据集生成的,质量得分范围将是0到41.因此,37是该位置的高质量得分。来自记忆:

40 would give a base call accuracy of 99.99%
30 would give a base call accuracy of 99.90%
20 would give a base call accuracy of 99.00%
10 would give a base call accuracy of 90.00%
 0 would give a base call accuracy of 00.00%

答案 1 :(得分:0)

你几乎找到了自己的答案:

  

...符号'^'表示读取的开始。 '^'减去33后面的字符的ASCII给出了映射质量。

所以'F'编码从该位置开始的一次读取的映射质量(我认为Steve谈论的是基本呼叫质量)。质量为phred scores,即对数标度误差概率:P = 10 ^( - Q / 10)。您可以通过检查ASCII表(例如man ascii)然后减去33来得出质量的数值.F转换为70,其映射质量为37.映射质量的定义因对齐器而异,但理论上这意味着从该列开始,有一个读数错位的10 ^( - 37/10)= 0.01%。

安德烈亚斯