我正在尝试使用bwa mem将序列读数与hg19参考序列对齐,但我的序列都有一个UMI(唯一分子标识符)。我像这样使用umitools:
umitools trim --end 5 input.fastq NNNNNN > output.fastq
然后将我的UMI序列正确地附加到output.fastq文件中的名称行,但是当使用bwa mem进行对齐时,我得到错误:
paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"
有没有办法同时使用bwa mem和umitools,所以这不会发生?
答案 0 :(得分:0)
所以这并没有完全回答这个问题,而是接近了。 umitools不适用于配对的结束读取。我所做的是绕过我的UMI序列(读取每一侧6bp),然后使用以下代码对齐:
sed -i~ '2~4s/^.\{6\}//' file
地址2~4
表示“从第2行开始,重复每4行”。
s
表示替换,^
匹配行开头,.
匹配任何字符,\{6\}
指定长度(“量词”)。替换字符串为空(//
)。
-i~
替换了该文件,留下了~
附加到文件名的备份。