如何在Perl中将命令行参数视为UTF-8?

时间:2010-01-10 15:34:19

标签: perl unicode utf-8

如何在Perl中将@ARGV的元素视为UTF-8?

目前我正在使用以下解决方法..

use Encode qw(decode encode);

my $foo = $ARGV[0];
$foo = decode("utf-8", $foo);

..虽然有效,但不是很优雅。

我使用的是Perl v5.8.8,它是从bash v3.2.25调用的,LANG设置为en_US.UTF-8。

5 个答案:

答案 0 :(得分:28)

外部数据源在Perl中很棘手。对于命令行参数,您可能会将它们作为区域设置中指定的编码。不要依赖您的语言环境与可能运行您的程序的其他人相同。

你必须找出那些然后转换为Perl的内部格式。幸运的是,这并不难。

I18N::Langinfo模块包含获取编码所需的内容:

    use I18N::Langinfo qw(langinfo CODESET);
    my $codeset = langinfo(CODESET);

一旦知道编码,就可以将它们解码为Perl字符串:

    use Encode qw(decode);
    @ARGV = map { decode $codeset, $_ } @ARGV;

虽然Perl将内部字符串编码为UTF-8,但您不应该想到或知道这一点。您只需解码所获得的任何内容,然后将其转换为Perl的内部表示形式。相信Perl会处理其他所有事情。当您需要存储数据时,请确保使用您喜欢的编码。

如果您知道您的设置是UTF-8,并且终端会将命令行参数作为UTF-8,则可以使用A选项和Perl的-C开关。这告诉程序假设参数编码为UTF-8:

% perl -CA program

你也可以使用-C获得它,这会打开其他几个Unicode选项:

% perl -C program

我发现“如果你知道”是一个真正意味着“我们不确定”的大红旗。

答案 1 :(得分:8)

使用Encode::Locale

use Encode::Locale;

decode_argv Encode::FB_CROAK;

这也适用于Win32,对我来说还不错。

答案 2 :(得分:4)

你做的方式似乎是正确的。这就是我要做的。

但是,这个perldoc page表明命令行标记-CA应该告诉它将@ARGV视为utf-8。 (未经测试)。

答案 3 :(得分:1)

例如对于Windows 设置代码

chcp 1251

in perl:

use utf8;
use Modern::Perl;
use Encode::Locale qw(decode_argv);

 if (-t)
{
    binmode(STDIN, ":encoding(console_in)");
    binmode(STDOUT, ":encoding(console_out)");
    binmode(STDERR, ":encoding(console_out)");
}

Encode::Locale::decode_argv();

在命令行中

perl -C ppixregexplain.pl qr/\bмама\b/i > ex1.html 2>&1  

其中.on()

答案 4 :(得分:0)

你不应该对字符串做任何特别的事情。 Perl字符串默认为UTF-8,从Perl 5.8开始。

perl -CO -le 'print "\x{2603}"' | xargs perl -le 'print "I saw @ARGV"'

上面的代码在Ubuntu 9.04,OS X 10.6和FreeBSD 7上运行得很好。

FalseVinylShrub带来了一个好点,我们可以看到

之间的明显区别
perl -Mutf8 -wle ';print utf8::is_utf8($ARGV[0]) ? "t" : "f"' a

perl -Mutf8 -CA -wle ';print utf8::is_utf8($ARGV[0]) ? "t" : "f"' a