这是samtools mpileup结果的一部分:
chr7 55241514 G 2786 .....................
chr7 55241515 C 2786 .....................
chr7 55241516 C 2786 .....................
chr7 55241517 G 2786 .....................
chr7 55241518 T 2786 .....................
chr7 55241519 G 2786 .$.$.$.$.$.$.$.$.$.$.
chr7 55241520 G 2776 .....................
chr7 55241521 C 2776 .....................
chr7 55241522 T 2776 .....................
chr7 55241523 G 2774 .....................
chr7 55241524 C 2774 .....................
chr7 55241525 T 2774 .....................
chr7 55241526 G 2723 .....................
chr7 55241527 G 2723 .$.$.$.$.$.$.$.$.$.$.
chr7 55241609 C 7999 ......^F.^F.^F.^F.^F.
chr7 55241610 C 7999 .....................
chr7 55241611 C 7999 .....................
chr7 55241612 A 7999 .....................
chr7 55241613 G 7999 .....................
chr7 55241614 C 7999 .....................
chr7 55241615 T 7999 .....................
chr7 55241616 T 7999 .....................
我不知道“^ F”的含义,我咨询了mpileup指挥官的帮助,符号'^'标志着读取的开始。 '^'减去33后面的字符的ASCII给出了映射质量。符号'$'表示读段的结束。它没有说“F”,有人知道这个结果中“F”的含义是什么。
答案 0 :(得分:1)
欢迎来到fastq format。使用ASCII table,您将看到“F”的小数值为70.因此,与“F”相关联的质量得分为70 - 33,这为您提供了37。
假设您的堆积是使用Illumina 1.8+编码的数据集生成的,质量得分范围将是0到41.因此,37是该位置的高质量得分。来自记忆:
40 would give a base call accuracy of 99.99%
30 would give a base call accuracy of 99.90%
20 would give a base call accuracy of 99.00%
10 would give a base call accuracy of 90.00%
0 would give a base call accuracy of 00.00%
答案 1 :(得分:0)
你几乎找到了自己的答案:
...符号'^'表示读取的开始。 '^'减去33后面的字符的ASCII给出了映射质量。
所以'F'编码从该位置开始的一次读取的映射质量(我认为Steve谈论的是基本呼叫质量)。质量为phred scores,即对数标度误差概率:P = 10 ^( - Q / 10)。您可以通过检查ASCII表(例如man ascii)然后减去33来得出质量的数值.F转换为70,其映射质量为37.映射质量的定义因对齐器而异,但理论上这意味着从该列开始,有一个读数错位的10 ^( - 37/10)= 0.01%。
安德烈亚斯