如何打印匹配的行,紧靠其上方的一行和紧接下方的一行?

时间:2009-10-06 06:09:23

标签: perl

根据Bi提出的相关问题,我已经学会了如何将匹配的行与其下方的行一起打印出来。代码看起来很简单:

#!perl
open(FH,'FILE');
while ($line = <FH>) {
    if ($line =~ /Pattern/) {
        print "$line";
        print scalar <FH>;
    }
}

然后,我在Google上搜索了一个不同的代码,可以打印匹配的行,紧跟在它们上面的行。部分适合我目的的代码是这样的:

#!perl

@array;
open(FH, "FILE");
while ( <FH> ) {
  chomp;
  $my_line = "$_";
  if ("$my_line" =~ /Pattern/) {
      foreach( @array ){
          print "$_\n";
      }
      print "$my_line\n"
  }
  push(@array,$my_line);
  if ( "$#array" > "0" ) {
    shift(@array);
  }
};

问题是我仍然无法弄清楚如何一起做这些。似乎我的大脑正在关闭。有没有人有任何想法?

感谢您的帮助。

更新

我觉得我有点感动。你们这么有帮助!也许有点偏离主题,但我真的觉得有更多的冲动。

我需要一个Windows程序,能够搜索多个文件的内容并显示相关信息,而无需单独打开每个文件。我尝试使用谷歌搜索和两个应用程序,代理Ransack和Devas,已证明是有用的,但它们只显示包含匹配查询的行,我想要查看相邻的行。然后,即兴创作一个程序的想法突然出现在我脑海中。多年前,我对Perl脚本印象深刻,可以生成维基百科的Tomeraider格式,这样我就可以轻松地在我的Lifedrive上搜索Wiki,而且我也在网上读到了Perl很容易学习的地方,特别是像我这样的人没有任何编程语言的经验。然后我几天前就开始自学Perl了。我的第一步是学习如何完成与“Agent Ransack”相同的工作,并且使用Perl证明它并不那么困难。我首先学习了如何搜索单个文件的内容,并通过修改标题为“Perl by Example”的书中使用的示例来显示匹配的行,但我被困在那里。我对如何处理多个文件变得完全无能为力。书中没有找到类似的例子,也可能是因为我太不耐烦了。然后我再次尝试谷歌搜索并被带到这里,我问了我的第一个问题“如何在Perl中搜索多个文件中的字符串模式?”在这里,我必须说这个论坛是血腥的真棒;)。然后我查看了更多示例脚本,然后我昨天提出了以下代码,它很好地满足了我原来的目的:

代码如下:

#!perl

$hits=0;
print "INPUT YOUR QUERY:";
chop ($query = <STDIN>);
$dir = 'f:/corpus/'; 
@files = <$dir/*>;
foreach $file (@files) {
open   (txt, "$file");

while($line = <txt>) {
if ($line =~ /$query/i) {   
$hits++;
print "$file \n $line";     
print scalar <txt>;
}
}
}
close(txt);
print "$hits RESULTS FOUND FOR THIS SEARCH\n";

在“corpus”文件夹中,我有很多文本文件,包括srt pdf doc文件,其中包含如下内容:

然后我甩了身子。

J'ai mis le corps dans unerecharge。

我知道你有电线。

Je sais que tu as un micro。

现在我会说实话。

Alors je vais te direlavérité。

基本上我只需要搜索英语短语并查看法语等效词,所以我昨天完成的脚本非常令人满意,但如果我的脚本可以显示上面的行以防我想要搜索法语短语和检查英语。所以我正在努力改进代码。实际上我知道“打印标量”是有缺陷的,但它很整洁,并且至少在大多数时间都能完成打印后续行的工作。我甚至期待另一个单行魔术线打印前一行而不是后续行.Perl似乎很有趣。我想我会花更多的时间来更好地理解它。正如daotoad所建议的那样,我将研究你们慷慨提供的代码。再次感谢你们!

8 个答案:

答案 0 :(得分:10)

使用grep可能会更容易,因为它允许在匹配之前和之后打印行。使用-B-A分别打印匹配前后的上下文。见http://ss64.com/bash/grep.html

答案 1 :(得分:7)

这是Pax优秀答案的现代化版本:

use strict;
use warnings;

open( my $fh, '<', 'qq.in') 
    or die "Error opening file - $!\n";

my $this_line = "";
my $do_next = 0;

while(<$fh>) {
    my $last_line = $this_line;
    $this_line = $_;

    if ($this_line =~ /XXX/) {
        print $last_line unless $do_next;
        print $this_line;
        $do_next = 1;
    } else {
        print $this_line if $do_next;
        $last_line = "";
        $do_next = 0;
    }
}
close ($fh);

有关最重要更改的原因的讨论,请参阅Why is three-argument open calls with lexical filehandles a Perl best practice?

重要变化:

  • 3参数open
  • lexical filehandle
  • 添加了strictwarnings pragma。
  • 用词法范围声明的变量。

轻微变化(风格和个人品味问题):

  • 从修复后if
  • 中删除了不需要的parens
  • 将if-not contstruct转换为unless

如果您觉得这个答案有用,请务必向上投票Pax的原件。

答案 2 :(得分:5)

您总是希望存储您看到的最后一行,以防下一行包含您的图案并且您需要打印它。像在第二个代码片段中那样使用数组可能有点过分。

my $last = "";
while (my $line = <FH>) {
  if ($line =~ /Pattern/) {
    print $last;
    print $line;
    print scalar <FH>;  # next line
  }
  $last = $line;
}

答案 3 :(得分:5)

给出以下输入文件:

(1:first) Yes, this one.
(2) This one as well (XXX).
(3) And this one.
Not this one.
Not this one.
Not this one.
(4) Yes, this one.
(5) This one as well (XXX).
(6) AND this one as well (XXX).
(7:last) And this one.
Not this one.

这个小片段:

open(FH, "<qq.in");
$this_line = "";
$do_next = 0;
while(<FH>) {
    $last_line = $this_line;
    $this_line = $_;
    if ($this_line =~ /XXX/) {
        print $last_line if (!$do_next);
        print $this_line;
        $do_next = 1;
    } else {
        print $this_line if ($do_next);
        $last_line = "";
        $do_next = 0;
    }
}
close (FH);

产生以下内容,这是我认为您所追求的:

(1:first) Yes, this one.
(2) This one as well (XXX).
(3) And this one.
(4) Yes, this one.
(5) This one as well (XXX).
(6) AND this one as well (XXX).
(7:last) And this one.

它基本上通过记住最后一行读取来工作,当它找到模式时,它输出它和模式行。然后它继续输出模式行加一个(使用$do_next变量)。

还有一些技巧可以确保没有两次打印线。

答案 4 :(得分:4)

grep -A 1 -B 1 "search line"

答案 5 :(得分:3)

我将忽略您的问题的标题,并专注于您发布的一些代码,因为如果没有解释它的错误,让代码保持正常是有害的。您说:

  

代码可以打印匹配的行,紧邻其上方的行。部分适合我的目的的代码是这样的

我将通过该代码。首先,你应该总是包括

use strict;
use warnings;

在你的脚本中,特别是因为你刚学习Perl。

@array;

这是一个毫无意义的陈述。使用strict,您可以使用:

声明@array
my @array;

首选open的三参数形式,除非在特定情况下有特定的好处不使用它。使用词法文件句柄,因为bareword文件句柄是包全局的,可能是神秘错误的来源。最后,在继续之前,请始终检查open是否成功。所以,而不是:

open(FH, "FILE");

写:

my $filename = 'something';
open my $fh, '<', $filename
    or die "Cannot open '$filename': $!";

如果你使用autodie,你就可以逃脱:

open my $fh, '<', 'something';

继续前进:

while ( <FH> ) {
  chomp;
  $my_line = "$_";

首先,阅读FAQ(你应该在开始编写程序之前这样做)。见What's wrong with always quoting "$vars"?。其次,如果您要将刚刚阅读的行分配给$my_line,则应在while语句中执行此操作,以免不必要地触摸$_。最后,您可以strict兼容,而无需输入任何其他字符:

while ( my $line =  <$fh> ) {
    chomp $line;

再次参阅上一个常见问题解答。

  if ("$my_line" =~ /Pattern/) {

为什么再次插入$my_line

      foreach( @array ){
          print "$_\n";
      }

使用显式循环变量或将其转换为:

print "$_\n" for @array;

因此,您再次插入$my_line并添加之前由chomp删除的换行符。没有理由这样做:

      print "$my_line\n"

现在我们来到这条线,促使我首先剖析您发布的代码:

  if ( "$#array" > "0" ) {

$#array 0 号码 >用于检查LHS上的 数字 是否大于 数字 RHS。因此, 无需将两个操作数转换为字符串。

此外,$#array@array的最后一个索引,其含义取决于$[的值。我无法弄清楚这个陈述应该检查什么。

现在,您原来的问题陈述是

  

打印匹配线及其正上方的线

当然,一个自然的问题是你想要打印的比赛“正上方”有多少行。

#!/usr/bin/perl

use strict;
use warnings;

use Readonly;
Readonly::Scalar my $KEEP_BEFORE => 4;

my $filename = $ARGV[0];
my $pattern  = qr/$ARGV[1]/;

open my $input_fh, '<', $filename
    or die "Cannot open '$filename': $!";

my @before;

while ( my $line = <$input_fh> ) {
    $line = sprintf '%6d: %s', $., $line;
    print @before, $line, "\n" if $line =~ $pattern;
    push @before, $line;
    shift @before if @before > $KEEP_BEFORE;
}

close $input_fh;

答案 6 :(得分:2)

命令行grep是实现此目的的最快方法,但如果你的目标是学习一些Perl,那么你需要生成一些代码。

我不会像其他人已经做过的那样提供代码,而是会谈谈如何编写自己的代码。我希望这有助于大脑锁定。

  • 阅读我的previous answer on how to write a program,它提供了有关如何开始处理问题的一些提示。
  • 浏览您拥有的每个示例程序以及此处提供的示例程序,并准确地评论它们的作用。请参阅perldoc,了解您不理解的每个功能和操作员。您的第一个示例代码有错误,如果一行中有两行匹配,则不会打印第二个匹配后的行。由于错误,我的意思是代码或规范是错误的,在这种情况下需要确定所需的行为。
  • 写出你希望你的程序做什么。
  • 用代码开始填空。

这是第一阶段写作的草图:

# This program reads a file and looks for lines that match a pattern.

# Open the file

# Iterate over the file
# For each line
#    Check for a match
#    If match print line before, line and next line.

但是你怎么得到下一行和前一行呢?

这里有创造性思维,有许多方法,你需要的只是一个有效的方法。

  • 您可以一次阅读一行,但请提前一行阅读。
  • 您可以将整个文件读入内存,并通过索引数组来选择上一行和后续行。
  • 您可以读取文件并存储每行的偏移量和长度 - 随时跟踪哪些匹配。然后使用偏移数据提取所需的行。
  • 你可以一次读一行。随时缓存上一行。使用readline读取下一行进行打印,但使用seek和tell来回退句柄,以便检查“下一行”是否匹配。

这些方法中的任何一种,以及更多的方法都可以充实到一个正常运行的程序中。根据您的目标和约束,任何人都可能是该问题域的最佳选择。知道如何选择使用哪一个将有经验。如果你有时间,可以尝试两种或三种不同的方式,看看它们是如何运作的。

祝你好运。

答案 7 :(得分:1)

如果你不介意失去迭代文件句柄的能力,你可能只是啜饮文件并遍历数组:

#!/usr/bin/perl

use strict; # always do these
use warnings;

my $range = 1; # change this to print the first and last X lines

open my $fh, '<', 'FILE' or die "Error: $!";
my @file = <$fh>;
close $fh;

for (0 .. $#file) {
  if($file[$_] =~ /Pattern/) {
    my @lines = grep { $_ > 0 && $_ < $#file } $_ - $range .. $_ + $range;
    print @file[@lines];
  }
}

对于大型文件,这可能会非常慢,但很容易理解(在我看来)。只有当你知道它是如何工作的时候,你才能开始尝试优化它。如果您对我使用的任何功能或操作有任何疑问,请询问。