我找到了很多用于修剪fastq格式读取的工具,但有没有可用于修剪已经对齐的读取?
答案 0 :(得分:2)
我个人不鼓励在对齐读数后修剪读数,特别是如果您尝试修剪的序列是适配器序列。
这些衔接子序列的存在会阻止您的读数与基因组正确对齐(根据我的经验,您将获得更低比例的比对)。由于你的对齐已经不准确,因此在对齐之后修剪序列(垃圾进入,垃圾输出)将毫无意义。
在对齐之前修剪fastq文件要好得多。
答案 1 :(得分:0)
您是希望对齐通知修剪协议,还是想要修剪质量值等内容?一种方法是简单地转换回FASTQ,然后使用任何可用的常规修剪选项中的任何一种。你可以用Picard做到这一点:
http://picard.sourceforge.net/command-line-overview.shtml#SamToFastq
答案 2 :(得分:0)
一种可能性是使用GATK工具集,例如ClipReads。如果要删除适配器,可以使用ReadAdaptorTrimmer。不需要转换为fastq(Documantation:http://www.broadinstitute.org/gatk/gatkdocs/)。
Picard当然是另一种可能性。
答案 3 :(得分:0)
在执行大量对齐工作后,想要将读取规范化为相同长度时,将遇到在bam文件中修剪读取的情况。修整fastq读取后重新映射不是节能的。在现场读取时,从bam文件中修整将是首选解决方案。
请尝试使用bbmap / reformat.sh,它可以使用接受bam格式的输入文件来修剪读取。
reformat.sh in=test.bam out=test_trim.bam allowidenticalnames=t overwrite=true forcetrimright=74 sam=1.4
## the default output format of reformat is sam 1.4. however, many tools only recognize 1.3 version. So the following step is to convert the 1.4 to version 1.3.
reformat.sh in=test_trim.bam out=test_trim_1.3.bam allowidenticalnames=t overwrite=true sam=1.3