如何处理解压缩hs37d5 fastq文件引起的尾随垃圾

时间:2015-09-23 12:51:58

标签: java gzip picard

我真的试图解决这个问题,但似乎以前没有其他人遇到过这个问题。我从1000G解压缩了fastq文件:

gunzip -c **hs37d5.fa.gz** | awk '{if(NR%4==1) {printf(">%s\n",substr($0,2));} else if(NR%4==2) print;}' > ref.fa

解压缩的文件夹虽然有一些"尾随垃圾"它会导致以下错误:

  

"线程中的异常" main" picard.PicardException:序列名称在引用中出现多次:NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

尝试运行时:

java -jar picard.jar CreateSequenceDictionary R=ref.fasta O=ref.dict

如果有人能给我一点帮助,我们将不胜感激。

0 个答案:

没有答案