使用Perl的正则表达式查找项

时间:2018-05-03 16:22:00

标签: regex perl escaping text-processing

我设置了一个用于从文本文件中检索数据的Perl脚本,但有一件事情不会显示,那就是以星号开头的内容。这是我的代码:

while(<INFILE>) {
   chomp $_;

    if (m/^\s*$/) {
        next;
    }

    my @fields = split(/\  /,$_);
    my @output;

    foreach my $field(@fields) {
        if($field =~ /^\*?[ABMQRWY][A-Z0-9]{4}235 / ) {
            push @output,$field;
        }
    }
}

我的if语句抓住了8个字符长的所有内容,但有时在作业前面会有*它不会拉动。我该如何包含它?我知道我需要逃避它,但不知道在哪里放它。

以下是我提取的数据的一些示例:

W50DW235 DW
M50DW235 DW
Q0608235 08
APJ40235 40
M3515235 15
M34DW235 DW
M3408235 08
RES08235 08
BSP20235 20
W1208235 08
B3008235 08

这是文件中的原始行:

18122/0655 18122/0700  W50DW235 DW        LEV001  002  D50DW235
18122/0735 18122/0740  M50DW235 DW        LEV002  002  W50DW235

它用星号赢得的线是这样的:

18123/0300 18123/0400 *D1708235 08        LEV001  001

为了提取数据,我使用以下方法来捕获具有两个空格的项目:

my @fields = split(/\  /,$_);

1 个答案:

答案 0 :(得分:6)

它与星号无关!带星号的项目为*D1708235,但您的正则表达式要求第一个字母字符为[ABMQRWY],不包括D

那就是说,这是一个清理过的例子:

my @output;

while(<>) {
    chomp;                       # Don't need to specify $_ - it's the default
    next if /^\s*$/;             # Ditto, and the single-line form for readability
    #print;     # If you want to see what it's doing

    my @fields = split;          # Split $_ on whitespace-separated fields

    foreach my $field (@fields) {
        #print "-$field-\n";
        push @output, $field     # Again, single-line form
            if $field =~ /^\*?[ABDMQRWY][A-Z0-9]{4}235/;
    }                         #  ^ the missing link   ^ no trailing whitespace
}

print "Results:\n", join("\n", @output), "\n";

我从$field正则表达式中删除了尾部空格,因为split将生成既没有前导空格也没有尾随空格的字段。

输入:

W50DW235 DW
M50DW235 DW
Q0608235 08
APJ40235 40
M3515235 15
M34DW235 DW
M3408235 08
RES08235 08
BSP20235 20
W1208235 08
B3008235 08

18122/0655 18122/0700 W50DW235 DW LEV001 002 D50DW235
18122/0735 18122/0740 M50DW235 DW LEV002 002 W50DW235

18123/0300 18123/0400 *D1708235 08 LEV001 001

输出:

Results:
W50DW235
M50DW235
Q0608235
APJ40235
M3515235
M34DW235
M3408235
RES08235
BSP20235
W1208235
B3008235
W50DW235
D50DW235
M50DW235
W50DW235
*D1708235