使用Trim后,为什么FastQC无法正常工作?

时间:2016-08-01 19:11:11

标签: unix bioinformatics fasta fastq

我有一个FASTQ文件,我可以运行FASTQC程序来分析文件。但是当我使用trim_galore时,FASTQC(或trim_galore中的FASTQC选项)不再有效。

$ fastqc ./sub1_val_1.fq.gz 

这是输出:

Started analysis of sub1_val_1.fq.gz
Analysis complete for sub1_val_1.fq.gz
Failed to process file sub1_val_1.fq.gz
java.lang.ArrayIndexOutOfBoundsException: -1
    at uk.ac.babraham.FastQC.Modules.SequenceLengthDistribution.calculateDistribution(SequenceLengthDistribution.java:100)
    at uk.ac.babraham.FastQC.Modules.SequenceLengthDistribution.raisesError(SequenceLengthDistribution.java:184)
    at uk.ac.babraham.FastQC.Report.HTMLReportArchive.startDocument(HTMLReportArchive.java:336)
    at uk.ac.babraham.FastQC.Report.HTMLReportArchive.<init>(HTMLReportArchive.java:84)
    at uk.ac.babraham.FastQC.Analysis.OfflineRunner.analysisComplete(OfflineRunner.java:155)
    at uk.ac.babraham.FastQC.Analysis.AnalysisRunner.run(AnalysisRunner.java:110)
    at java.lang.Thread.run(Thread.java:695)

Failed to process file是错误的,因为trim_galore和FastQC之间的版本不正确吗?

found this,但那不是helpful

我正在使用FastQC v0.11.5和trim_galore v0.4.1。

我使用以下方法对一个库(读取配对端)进行了子集化:

seqtk sample -s100 ./SRR2937435_1.fastq.gz 10000 | gzip  > sub1.fastq.gz
seqtk sample -s100 ./SRR2937435_2.fastq.gz 10000 | gzip > sub2.fastq.gz

sub1_val_1.fq.gz文件是在将sub1.fastq.gz传递给trim_galore后的。带有sub1.fastq.gz的FastQC正在运行。

注意:根据biostars.org发布的建议。

1 个答案:

答案 0 :(得分:1)

我找到了答案: 你必须解压缩它。可能trim_galore仅适用于tar.gz而不是fastq.gz。

gzip -d -k sub1.fastq.gz > sub1.fastq
y # to accept to overwrite
gzip -d -k sub2.fastq.gz > sub2.fastq
y # to accept to overwrite

trim_galore  --illumina --paired --fastqc sub1.fastq sub2.fastq