修剪Illumina读取bam / sam文件

时间:2012-04-30 14:38:48

标签: bioinformatics fastq

我找到了很多用于修剪fastq格式读取的工具,但有没有可用于修剪已经对齐的读取?

4 个答案:

答案 0 :(得分:2)

我个人不鼓励在对齐读数后修剪读数,特别是如果您尝试修剪的序列是适配器序列。

这些衔接子序列的存在会阻止您的读数与基因组正确对齐(根据我的经验,您将获得更低比例的比对)。由于你的对齐已经不准确,因此在对齐之后修剪序列(垃圾进入,垃​​圾输出)将毫无意义。

在对齐之前修剪fastq文件要好得多。

答案 1 :(得分:0)

您是希望对齐通知修剪协议,还是想要修剪质量值等内容?一种方法是简单地转换回FASTQ,然后使用任何可用的常规修剪选项中的任何一种。你可以用Picard做到这一点:

http://picard.sourceforge.net/command-line-overview.shtml#SamToFastq

答案 2 :(得分:0)

一种可能性是使用GATK工具集,例如ClipReads。如果要删除适配器,可以使用ReadAdaptorTrimmer。不需要转换为fastq(Documantation:http://www.broadinstitute.org/gatk/gatkdocs/)。

Picard当然是另一种可能性。

答案 3 :(得分:0)

在执行大量对齐工作后,想要将读取规范化为相同长度时,将遇到在bam文件中修剪读取的情况。修整fastq读取后重新映射不是节能的。在现场读取时,从bam文件中修整将是首选解决方案。

请尝试使用bbmap / reformat.sh,它可以使用接受bam格式的输入文件来修剪读取。

reformat.sh in=test.bam out=test_trim.bam  allowidenticalnames=t overwrite=true forcetrimright=74 sam=1.4
## the default output format of reformat is sam 1.4. however, many tools only recognize 1.3 version. So the following step is to convert the 1.4 to version 1.3.
reformat.sh in=test_trim.bam out=test_trim_1.3.bam allowidenticalnames=t overwrite=true sam=1.3