当你有<内部会发生什么? FH>,<>或< *>在perl?

时间:2013-09-17 20:02:23

标签: perl io glob filehandle

如果这个问题听起来很简单,我很抱歉,我的目的是理解深入这个(这些?)特定运算符是如何工作的,我无法在perldocs中找到令人满意的描述(它可能存在于某个地方,我在我的生命中找不到它)

特别是,我有兴趣知道是否

a)<>

b)<*>或任何glob和

c)<FH>

基本相似或不同,以及它们如何在内部使用。

我构建了自己的测试功能,以获得对此的一些见解(如下所示)。我仍然没有完全理解(我的理解甚至可能是错误的)但这就是我的结论:

  • <>
    • 在标量上下文中:读取正在读取的“当前文件”的下一行(在@ARGV中提供)。 问题:这似乎是一个非常特殊的场景,我想知道为什么它是这样的,是否可以推广。还有什么是正在阅读的“当前文件”?它在文件句柄中吗?什么是柜台?
    • 在列表上下文中:将@ARGV中的所有文件读入数组
  • <list of globs>
    • 在标量上下文中:在当前文件夹中找到的与glob匹配的第一个文件的名称。 问题:为什么当前文件夹?我该如何改变?是改变这种做法的唯一方法,例如&lt; / home / *&gt; ?
    • 在列表上下文中:与当前文件夹中的glob匹配的所有文件。
  • <FH>似乎在分配给变量时返回undef。 问题:为什么它不合适?它没有类型吗?当FH不是一个裸字文件句柄时,这种行为是否相似?

一般问题:处理&lt;&gt;的值是什么?执行期间的其他人?在标量上下文中,返回的是任何类型的引用,还是我们分配给它们的变量,在那一点上与任何其他非ref标量相同?

我也注意到即使我按顺序分配它们,每次都会重置输出。也就是说当我做的时候我会假设

$thing_s = <>;
@thing_l = <>;

@thing_l会遗漏第一个项目,因为$thing_s已收到该项目。为什么不是这样?

用于测试的代码:

use strict;
use warnings;
use Switch;
use Data::Dumper;

die "Call with a list of files\n" if (@ARGV<1);
my @whats = ('<>','<* .*>','<FH>');
my $thing_s;
my @thing_l;
for my $what(@whats){
    switch($what){
                    case('<>'){
                        $thing_s = <>;
                        @thing_l = <>;
                    }
                    case('<* .*>'){
                            $thing_s = <* .*>;
                            @thing_l = <* .*>;
                    }
                    case('<FH>'){
                            open FH, '<', $ARGV[0];
                            $thing_s = <FH>;
                            @thing_l = <FH>;
                    }

    }
    print "$what in scalar context is: \n".Dumper($thing_s)."\n";
    print "$what in list context is: \n".Dumper(@thing_l)."\n";
}

2 个答案:

答案 0 :(得分:12)

<>所有东西都是迭代器。所有这些变体都有共同的行为:

  • 在列表上下文中使用,返回所有剩余的元素。
  • 在标量上下文中使用,仅返回下一个元素。
  • 在标量上下文中使用,一旦迭代器耗尽,它将返回undef

最后两个属性使其适合用作while循环中的条件。

有两种迭代器可以与<>一起使用:

  • 文件句柄。在这种情况下,<$fh>相当于readline $fh
  • 全球,因此<* .*>相当于glob '* .*'

<>在包含任何内容,无字符或简单标量时被解析为readline。可以嵌入更复杂的表达式,如<{ ... }>

在所有其他情况下,它被解析为glob。这可以通过使用引号明确显示:<"* .*">但您应该明确地使用glob函数代替。

一些细节不同,例如保留迭代器状态的地方:

  • 从文件句柄读取时,文件句柄保持迭代器状态。
  • 使用glob表单时,每个glob表达式都有自己的状态。

另一部分是迭代器是否可以重启:

    返回一个undef
  • glob重新启动。
  • 文件句柄只能通过搜索重新启动 - 并非所有FH都支持此操作。

如果<>中没有使用文件句柄,则默认为特殊ARGV文件句柄。 <ARGV>的行为如下:

  • 如果@ARGV为空,则ARGVSTDIN
  • 否则,@ARGV的元素将被视为文件名。执行以下伪代码:

    $ARGV = shift @ARGV;
    open ARGV, $ARGV or die ...; # careful! no open mode is used
    

    $ARGV标量包含文件名,ARGV文件句柄包含该文件句柄。

  • ARGVeof时,@ARGV的下一个文件将被打开。
  • 仅当@ARGV完全为空时,<>才能返回undef

这实际上可以用作从许多文件中读取的技巧:

local @ARGV = qw(foo.txt bar.txt baz.txt);
while (<>) {
  ...;
}

答案 1 :(得分:4)

  

在执行期间处理<>和其他人的价值的是什么?

Perl编译器非常具有上下文感,并且通常必须在代码段的多个模糊解释之间进行选择。根据括号内的内容,它会将<>编译为readlineglob

  

在标量上下文中,返回的是任何类型的引用,还是我们分配给它们的变量,在这一点上与任何其他非ref标量相同?

我不确定你在这里问什么,或者为什么你认为取<>结果的变量应该与其他变量有任何不同。它们总是简单的字符串值:glob返回的文件名,或readline返回的某些文件数据。

  

<FH>似乎在分配给变量时返回undef。问题:为什么它不合适?它没有类型吗?当FH不是一个裸字文件句柄时,这种行为是否相似?

此表单会将FH视为文件句柄,如果文件处于打开状态而不是eof,则返回文件中的下一行数据。否则返回undef,表示无法读取任何有效内容。 Perl对类型非常灵活,但undef表现为它自己的类型,如Ruby的nil。无论FH是全局文件句柄还是(包含对typeglob的引用的变量),运算符的行为都相同。