Perl:将一个字节加上STDIN传递给另一个命令

时间:2015-04-15 22:04:44

标签: perl io

我想有效地做到这一点:

my $buf;
my $len = read(STDIN,$buf,1);
if($len) {
    # Not empty                                                                                                          
    open(OUT,"|-", "wc") || die;
    print OUT $buf;
    # This is the line I want to do faster
    print OUT <STDIN>;
    exit;
}

任务是仅在有任何输入时启动wc。如果没有输入,程序应该退出。

wc只是一个例子。它将被一个更复杂的命令所取代。

输入可以是几TB的数据,所以我真的根本不想触摸那些数据(甚至没有sysread)。我试过了:

    pipe(STDIN,OUT);

但这并不奏效。有没有其他方法可以告诉OUT,在获得第一个字节后,它应该只读取STDIN?也许一些开放(&#34;&gt; =&amp; 2&#34;)体操加上exec

3 个答案:

答案 0 :(得分:6)

Perl Cookbook 中提到的F​​IONREAD ioctl可以告诉你文件描述符没有消耗它们的待处理字节数。用英语来说:

use strict;
use warnings;

use IO::Select qw( );    
BEGIN { require 'sys/ioctl.ph'; }

sub fionread {
    my $sz = pack('L', 0);
    return unless ioctl($_[0], FIONREAD, $sz);
    return unpack('L', $sz);
}

# Wait until it's known whether the handle has data to read or has reached EOF.
IO::Select->new(\*STDIN)->can_read();

if (fionread(\*STDIN)) {
    system('wc');
    # Check for errors
}

这应该可以非常容易地移植到UNIX和类UNIX平台上。

答案 1 :(得分:1)

您感兴趣的具体解决方案是不可能的。


正如您已经发现的那样,您无法确定文件句柄是否已达到EOF而未从中读取。 [显然,you can] select(2)会让您关。它会告诉你句柄已达到EOF或有数据等待,但它不会告诉你哪个。这就是您正在研究替代解决方案的原因。不幸的是,你正在研究的那个也是不可能的。

  

还有其他一些方法可以告诉OUT,在得到第一个字节之后,它应该只读取STDIN吗?

没有。 OUT不是代码;它没有读任何东西。这是一个变量。此外,它是父母的变量。更改父级中的变量不会影响子级。

也许您打算问:可以告诉子程序从第二个句柄开始阅读吗?

不,一般来说。你不能去编辑另一个程序的变量。该程序必须专门编写,以接受两个文件句柄,并从一个接一个读取。

然后再次,可以获得任意文件句柄的文件名,所以我们只需要一个专门编写的程序来接受两个文件名并一个接一个地读取,这很常见。

$ echo abcdef | perl -MFcntl -e'
   if (sysread(STDIN, $buf, 1)) {
      pipe(my $r, my $w);
      my $pid = fork();
      if (!$pid) {
         close($w);

         # Clear close-on-exec flag.
         my $flags = fcntl($r, Fcntl::F_GETFD, 0);
         fcntl($r, Fcntl::F_SETFD, $flags & ~Fcntl::FD_CLOEXEC);

         exec("cat", "/proc/$$/fd/".fileno($r), "/proc/$$/fd/".fileno(STDIN));
         die $!;
      }

      close($r);
      print($w $buf);
      close($w);
      waitpid($pid, 0);
   }
'
abcdef

(需要进行大量的错误检查。)

上面,使用cat作为您的程序使用的示例,但这提供了另一种解决方案:为什么不使用cat?对于受IO限制的程序,cat的开销应该非常小。

use String::ShellQuote qw( shell_quote );

my $cmd1 = shell_quote("cat", "/proc/$$/fd/".fileno($r), "/proc/$$/fd/".fileno(STDIN));
my $cmd2 = ...
exec("$cmd1 | $cmd2");

答案 2 :(得分:1)

子进程始终与其父进程的文件句柄重复,因此只需启动wc - 使用反引号或调用systemexec - 将使其读取来自与Perl进程STDIN相同的地方。

至于只有在有东西要读的情况下才开始wc,看起来你需要IO::Select,它可以让你检查一个文件句柄是否有东西要读,或者阻止直到它 有什么。

此程序将检查STDIN是否有任何数据等待,然后运行wc并打印其输出。

use strict;
use warnings;

use IO::Select;

my $select = IO::Select->new(\*STDIN);

if ( $select->can_read(0) ) {
  print `wc`;
}

can_read的参数是以秒为单位的超时。如果有数据等待,或者 false undef如果没有。

如果你没有传递参数,那么can_read将永远等待,直到有东西要读,所以你可以暂停你的程序并等待wc的数据只需写

$select->can_read;
print `wc`;

或者您可以组合对象的构造以使其更简洁

IO::Select->new(\*STDOUT)->can_read;
print `wc`;

另请注意,IO::Select也适用于文件描述符,并且由于STDIN的fileno为零,您可以编写

my $select = IO::Select(0)

但这不是很具描述性,需要评论才有意义