Question

我正在尝试使用bwa mem将序列读数与hg19参考序列对齐，但我的序列都有一个UMI（唯一分子标识符）。我像这样使用umitools：

umitools trim --end 5 input.fastq NNNNNN > output.fastq

然后将我的UMI序列正确地附加到output.fastq文件中的名称行，但是当使用bwa mem进行对齐时，我得到错误：

paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"

有没有办法同时使用bwa mem和umitools，所以这不会发生？

Answer 1

所以这并没有完全回答这个问题，而是接近了。 umitools不适用于配对的结束读取。我所做的是绕过我的UMI序列（读取每一侧6bp），然后使用以下代码对齐：

sed -i~ '2~4s/^.\{6\}//' file

地址2~4表示“从第2行开始，重复每4行”。

s表示替换，^匹配行开头，.匹配任何字符，\{6\}指定长度（“量词”）。替换字符串为空（//）。

-i~替换了该文件，留下了~附加到文件名的备份。