在Perl中使用多个输出文件在多个目录中运行脚本(比较哈希键值的问题)

时间:2017-08-07 23:10:50

标签: perl memory hashtable subdirectory

我有一个看起来像这样的脚本,我想用它来搜索我当前的目录,打开,该目录中的所有目录,打开所有匹配某些RE的文件(具有格式的fastq文件)这样每四行一起),对这些文件做一些工作,并将一些结果写入每个目录中的文件。 (注意:实际脚本比这更多但我认为我有一个与文件夹迭代相关的结构问题,因为当在一个文件夹中使用简化版本时脚本有效,所以我在这里发布了一个简化版本)

#!user/local/perl
#Created by C. Pells, M. R. Snyder, and N. T. Marshall 2017

#Script trims and merges high throughput sequencing reads from fastq files for a specific primer set

use Cwd;
use warnings;

my $StartTime= localtime;

my $MasterDir = getcwd; #obtains a full path to the current directory


opendir (DIR, $MasterDir);
my @objects = readdir (DIR);
closedir (DIR);
foreach (@objects){
    print $_,"\n";
}

my @Dirs = ();
foreach my $O (0..$#objects){
    my $CurrDir = "";
    if ((length ($objects[$O]) < 7) && ($O>1)){ #Checking if the length of the object name is < 7 characters. All samples are 6 or less. removing the first two elements: "." and ".."
        $CurrDir = $MasterDir."/".$objects[$O]; #appends directory name to full path
        push (@Dirs, $CurrDir);
    }
}

foreach (@Dirs){
    print $_,"\n";#checks that all directories were read in
}


foreach my $S (0..$#Dirs){
    my @files = ();
    opendir (DIR, $Dirs[$S]) || die "cannot open $Dirs[$S]: $!";
    @files = readdir DIR; #reads in all files in a directory
    closedir DIR;
    my @AbsFiles = ();
    foreach my $F (0..$#files){
        my $AbsFileName = $Dirs[$S]."/".$files[$F]; #appends file name to full path
        push (@AbsFiles, $AbsFileName);
    }

    foreach my $AF (0..$#AbsFiles){
        if ($AbsFiles[$AF] =~ /_R2_001\.fastq$/m){ #finds reverse fastq file
            my @readbuffer=();
            #read in reverse fastq
            my %RSeqHash;
            my $c = 0;
            print "Reading, reversing, complimenting, and trimming reverse fastq file $AbsFiles[$AF]\n";
            open (INPUT1, $AbsFiles[$AF]) || die "Can't open file: $!\n";
            while (<INPUT1>){
                chomp ($_);
                push(@readbuffer, $_);
                if (@readbuffer == 4) {
                    $rsn = substr($readbuffer[0], 0, 45); #trims reverse seq name
                    $cc++ % 10000 == 0 and print "$rsn\n";
                    $RSeqHash{$rsn} = $readbuffer[1];
                @readbuffer = ();
                }
            }
        }
    }
    foreach my $AFx (0..$#AbsFiles){
        if ($AbsFiles[$AFx] =~ /_R1_001\.fastq$/m){ #finds forward fastq file
            print "Reading forward fastq file $AbsFiles[$AFx]\n";
            open (INPUT2, $AbsFiles[$AFx]) || die "Can't open file: $!\n";
            my $OutMergeName = $Dirs[$S]."/"."Merged.fasta";
            open (OUT, ">", "$OutMergeName");
            my $cc=0;
            my @readbuffer = ();
            while (<INPUT2>){
                chomp ($_);
                push(@readbuffer, $_);
                if (@readbuffer == 4) {
                    my $fsn = substr($readbuffer[0], 0, 45); #trims forward seq name
                    #$cc++ % 10000 == 0 and print "$fsn\n$readbuffer[1]\n";
                    if ( exists($RSeqHash{$fsn}) ){ #checks to see if forward seq name is present in reverse seq hash
                        print "$fsn was found in Reverse Seq Hash\n";
                        print OUT "$fsn\n$readbuffer[1]\n";
                    }
                    else {
                        $cc++ % 10000 == 0 and print "$fsn not found in Reverse Seq Hash\n";
                    }
                @readbuffer = ();
                }
            }
            close INPUT1;
            close INPUT2;
            close OUT;
        }
    }
}
my $EndTime= localtime;
print "Script began at\t$StartTime\nCompleted at\t$EndTime\n"; 

同样,我知道该脚本无需迭代文件夹即可运行。但是对于这个版本我只是得到空输出文件。由于我在这个脚本中插入了打印函数,我已经确定Perl无法从INPUT2中找到变量$ fsn作为哈希中的键。我无法理解为什么因为每个文件都存在,并且当我不迭代文件夹时它可以工作所以我知道密钥匹配。所以要么有一些我想念的简单,要么就是我找到的Perl记忆的某种限制。任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:0)

原来我的问题在于我在哪里声明哈希。出于某种原因,即使我只是在找到第一个输入文件后才声明它。该脚本失败,除非我在foreach循环之前声明哈希循环遍历@AbsFiles中搜索第一个输入文件的所有项目,这很好,因为这意味着在每个新目录中清除哈希。但是我不明白它为什么会失败,因为它只应该在找到输入文件名时声明(或清除)哈希。我想我不需要知道它为什么以前没有工作,但有些帮助理解会很好。

我必须赞扬其他用户帮助我实现这一目标。他们试图回答我的问题,但没有,然后给了我这个暗示我在答案的评论中声明我的哈希的地方。这个答案现在已被删除,所以我不能指望那个用户指向我这个方向。我很想知道他们对Perl的理解,我不知道他们已经明白这是问题所在。我很抱歉我忙于数据分析和会议,所以我很快就无法回复那条评论。