我想使用AMOScmp来分析illumina配对的最终数据。 AMOScmp需要相同数量的配对文件来构建.afg文件。原始fq文件已配对。通过质量,重复序列和人类DNA控制分别传递fq文件后,我发现配对的结尾文件具有不同的读数。我想从配对的结束读取中删除不成对的读取,以获得具有相同读取次数的两个fa文件。有没有人有脚本或知道什么软件可以帮我解决问题?
答案 0 :(得分:2)
使用trimmomatic实用程序执行此操作。这是一个质量修剪程序,将输出4个文件:R1_paired,R2_paired,R1_singles,R2_singles
如果您只需要匹配对,那么只需使用单个质量属性运行它,例如:
MINLEN:20
注意:您应该知道,如果您稍后需要对两个配对的结束文件进行随机播放,那么两次“配对”文件之间的序列奇偶校验在读取一定数量后将不会是1:1。我怀疑这是由于trimmomatic的线程。如果您担心它,请确保将线程设置为1.不确定这是否是一个解决方案,因此通过查看两个文件中的随机行来验证结果。从两个文件的开头,中间和结尾选择行。然后比较序列ID行:
head -n 1000 R1_paired.fastq |尾巴-n 4
head -n 1000 R2_paired.fastq |尾巴-n 4
以下是使用两个配对的结束FASTQ文件的示例(注意:这假设输入文件名为R1.fastq和R2.fastq,并且trimmomatic-0.30.jar位于本地目录中,否则您将需要把java的路径放在后面)
java -jar ./trimmomatic-0.30.jar PE -threads 1 -phred33 R1.fastq R2.fastq R1_paired.fastq R1_singles.fastq R2_paired.fastq R2_singles.fastq MINLEN:20