我有一个看起来像这样的脚本,我想用它来搜索我当前的目录,打开,该目录中的所有目录,打开所有匹配某些RE的文件(具有格式的fastq文件)这样每四行一起),对这些文件做一些工作,并将一些结果写入每个目录中的文件。 (注意:实际脚本比这更多但我认为我有一个与文件夹迭代相关的结构问题,因为当在一个文件夹中使用简化版本时脚本有效,所以我在这里发布了一个简化版本)
#!user/local/perl
#Created by C. Pells, M. R. Snyder, and N. T. Marshall 2017
#Script trims and merges high throughput sequencing reads from fastq files for a specific primer set
use Cwd;
use warnings;
my $StartTime= localtime;
my $MasterDir = getcwd; #obtains a full path to the current directory
opendir (DIR, $MasterDir);
my @objects = readdir (DIR);
closedir (DIR);
foreach (@objects){
print $_,"\n";
}
my @Dirs = ();
foreach my $O (0..$#objects){
my $CurrDir = "";
if ((length ($objects[$O]) < 7) && ($O>1)){ #Checking if the length of the object name is < 7 characters. All samples are 6 or less. removing the first two elements: "." and ".."
$CurrDir = $MasterDir."/".$objects[$O]; #appends directory name to full path
push (@Dirs, $CurrDir);
}
}
foreach (@Dirs){
print $_,"\n";#checks that all directories were read in
}
foreach my $S (0..$#Dirs){
my @files = ();
opendir (DIR, $Dirs[$S]) || die "cannot open $Dirs[$S]: $!";
@files = readdir DIR; #reads in all files in a directory
closedir DIR;
my @AbsFiles = ();
foreach my $F (0..$#files){
my $AbsFileName = $Dirs[$S]."/".$files[$F]; #appends file name to full path
push (@AbsFiles, $AbsFileName);
}
foreach my $AF (0..$#AbsFiles){
if ($AbsFiles[$AF] =~ /_R2_001\.fastq$/m){ #finds reverse fastq file
my @readbuffer=();
#read in reverse fastq
my %RSeqHash;
my $c = 0;
print "Reading, reversing, complimenting, and trimming reverse fastq file $AbsFiles[$AF]\n";
open (INPUT1, $AbsFiles[$AF]) || die "Can't open file: $!\n";
while (<INPUT1>){
chomp ($_);
push(@readbuffer, $_);
if (@readbuffer == 4) {
$rsn = substr($readbuffer[0], 0, 45); #trims reverse seq name
$cc++ % 10000 == 0 and print "$rsn\n";
$RSeqHash{$rsn} = $readbuffer[1];
@readbuffer = ();
}
}
}
}
foreach my $AFx (0..$#AbsFiles){
if ($AbsFiles[$AFx] =~ /_R1_001\.fastq$/m){ #finds forward fastq file
print "Reading forward fastq file $AbsFiles[$AFx]\n";
open (INPUT2, $AbsFiles[$AFx]) || die "Can't open file: $!\n";
my $OutMergeName = $Dirs[$S]."/"."Merged.fasta";
open (OUT, ">", "$OutMergeName");
my $cc=0;
my @readbuffer = ();
while (<INPUT2>){
chomp ($_);
push(@readbuffer, $_);
if (@readbuffer == 4) {
my $fsn = substr($readbuffer[0], 0, 45); #trims forward seq name
#$cc++ % 10000 == 0 and print "$fsn\n$readbuffer[1]\n";
if ( exists($RSeqHash{$fsn}) ){ #checks to see if forward seq name is present in reverse seq hash
print "$fsn was found in Reverse Seq Hash\n";
print OUT "$fsn\n$readbuffer[1]\n";
}
else {
$cc++ % 10000 == 0 and print "$fsn not found in Reverse Seq Hash\n";
}
@readbuffer = ();
}
}
close INPUT1;
close INPUT2;
close OUT;
}
}
}
my $EndTime= localtime;
print "Script began at\t$StartTime\nCompleted at\t$EndTime\n";
同样,我知道该脚本无需迭代文件夹即可运行。但是对于这个版本我只是得到空输出文件。由于我在这个脚本中插入了打印函数,我已经确定Perl无法从INPUT2中找到变量$ fsn作为哈希中的键。我无法理解为什么因为每个文件都存在,并且当我不迭代文件夹时它可以工作所以我知道密钥匹配。所以要么有一些我想念的简单,要么就是我找到的Perl记忆的某种限制。任何帮助表示赞赏!
答案 0 :(得分:0)
原来我的问题在于我在哪里声明哈希。出于某种原因,即使我只是在找到第一个输入文件后才声明它。该脚本失败,除非我在foreach循环之前声明哈希循环遍历@AbsFiles中搜索第一个输入文件的所有项目,这很好,因为这意味着在每个新目录中清除哈希。但是我不明白它为什么会失败,因为它只应该在找到输入文件名时声明(或清除)哈希。我想我不需要知道它为什么以前没有工作,但有些帮助理解会很好。
我必须赞扬其他用户帮助我实现这一目标。他们试图回答我的问题,但没有,然后给了我这个暗示我在答案的评论中声明我的哈希的地方。这个答案现在已被删除,所以我不能指望那个用户指向我这个方向。我很想知道他们对Perl的理解,我不知道他们已经明白这是问题所在。我很抱歉我忙于数据分析和会议,所以我很快就无法回复那条评论。