我很快意识到,生物信息学不是一个明确定义且易于获取的术语的主题。我的一些结果明显不一致。
我在几个BAM文件上使用了samtools view -b -h -f 8 fileName.bam > mateUnmapped.bam
。我的印象是这个命令只提取其伙伴不与草图基因组对齐的读数(也包括标题;输出是BAM格式)
当我对结果文件使用samtools 'flagstat'
时,我得到了一个有趣的结果:“单身人士”的数量与读取的总数不匹配......这对我来说似乎很奇怪。
我能找到的唯一对照就是:
http://seqanswers.com/forums/showthread.php?t=46711
回复本论坛提出的问题的一个人声称单身人士有时被定义为完全没有伴侣阅读的序列。但是,这仍然无法解释我的结果。弗拉格斯塔特说我的读数大约有40%是单身,但我觉得我根据我使用的“观察”命令,他们都应该是单身人士。经验丰富的生物信息学家可以帮助我吗?
答案 0 :(得分:7)
在一般的基因组装配中,单个基因是一个读数,它没有组装成重叠群或映射到参照。这是一个只有1读的重叠群。
在samtools中,单例指的是映射的读数,但配偶没有。
Flagstat说我的读书中约有40%是单身,但我觉得 基于'视图'我用的命令,他们都应该是单身。
我不是samtools专家,但我认为-f 8
表示其配偶没有映射的节目阅读。对于阅读本身,只是它的配偶,它没有任何说法。因此,您可能正在读取两个根本没有映射的配对(60%)并且读取其中只有一个配对映射的配对(40%)。 ?
您可能希望尝试使用-f 8 -F 4
来运行映射但其配偶没有映射的读取。