我有一对Illumina配对末端读取文件(例如,A_1.fastq.gz和A_2.fastq.gz),这些文件是从单个细菌分离物产生的,用于变体调用。首先,由于读长(100 bp),插入大小(约230 bp)及其标准偏差(约50 bp),我使用FLASH来合并重叠读数。 FLASH产生三个读取文件,两个用于非重叠的双端读取,一个用于合并读取(单端)。然后我使用bowtie将它们与一个共同的参考基因组对齐,这产生了两个bam文件(一个用于配对末端读取,另一个用于单端读取)。
为了获得更高的覆盖率和变体调用的读取深度,我想将两个BAM文件合并为一个。我计划将BamTools用于此任务,因为它专用于处理BAM文件。但是,我不确定在调用“bamtools merge”命令之前是否有必要对输入BAM文件进行排序?它没有在软件教程或其他地方介绍过。如果你能提供帮助,我将不胜感激。
答案 0 :(得分:0)
嗯,这是一个合并,因此根据定义,必须对输入进行排序。否则它将不会合并。
合并是将两个或多个排序的列表保持顺序的联接操作。合并的好处是,在对输入进行排序后,您不必进行额外的排序。
如果未对输入进行排序,则可以简单地将它们连接起来并对最终结果进行排序,或者对输入进行排序并合并中间结果。
顺便说一句,如果您将未排序的bams馈送到merge命令,它很可能会抱怨。