我在一个目录中打开文件,每个文件中包含两行序列。顶部序列比底部长,但包括底部序列。一旦在顶部序列中找到,我想通过每个方向上的两个侧翼字母来扩展底部序列。我正在通过执行正则表达式匹配来尝试这个,但是我得到了$ newsequence变量的未初始化错误。 这是典型文件的样子:
>CCCCNNNNNCCCC
NNNNN
我想以下列格式将所有序列打印到一个文件中:
>CCCCNNNNNCCCC
CCNNNNNCC
到目前为止,这是我的代码:
use strict;
use warnings;
my ($directory) = @ARGV
my @array = glob "$directory/*";
my $header;
my $sequence;
my $newsequence;
open(OUT, ">", "/path/to/out.txt") or die $!;
foreach my $file (@array){
open (my $fh, $file) or die $!;
while (my $line = <$fh>){
chomp $line;
if ($line =~ /^>/) {
$header = $line;
} elsif ($line =~ /^[CN]/) {
$sequence = $line;
}
my ($newsequence) = $header =~ /(([CN]{2})($sequence)([CN]{2}))/;
}
print OUT $header, "\n", $newsequence, "\n";
}
如何将我的正则表达式赋值改为$ newsequence以获得足够的输出?谢谢。
答案 0 :(得分:2)
这一行错了:
my ($newsequence) = $header =~ /(([CN]{2})($sequence)([CN]{2}))/;
my
关键字正在为$newsequence
循环创建一个新的变量while
,而不是在主脚本中分配变量。因此,当您在循环完成后尝试编写$newsequence
时,该变量仍然未初始化。
将print
语句放在while
循环中,或删除此作业中的my
关键字。
此外,您应该将该赋值语句放在elseif
块中。否则,您在分配之前尝试使用$sequence
。所以整个事情应该是这样的:
foreach my $file (@array){
open (my $fh, $file) or die $!;
while (my $line = <$fh>){
chomp $line;
if ($line =~ /^>/) {
$header = $line;
} elsif ($line =~ /^[CN]/) {
$sequence = $line;
($newsequence) = $header =~ /(([CN]{2})($sequence)([CN]{2}))/;
print OUT $header, "\n", $newsequence, "\n";
}
}
}
答案 1 :(得分:0)
如果您的条件准确(每个文件只包含2行,并且序列总是在标题中找到),那么您可以使代码更简单,包括正则表达式:
for my $file (@array) {
open (my $fh, $file) or die $!;
chomp ((my $header, my $sequence) = <$fh>);
$header =~ /(..)$sequence(..)/;
print OUT "$header\n$1$sequence$2";
}