在Perl中打印到文件与打印到shell

时间:2015-08-11 11:28:27

标签: perl unicode utf-8

我正在编写一个Perl程序,将我的本地语言ASCII字符转换为Unicode字符(泰米尔语)。

这是我的程序

#!/bin/perl
use strict;
use warnings;

use open ':std';
use open ':encoding(UTF-8)';

use Encode qw( encode decode );
use Data::Dump qw(dump);
use Getopt::Long qw(GetOptions);

Getopt::Long::Configure qw(gnu_getopt);

my $font;
my %map;
GetOptions(
    'font|f=s' => \$font,
    'help|h'   => \&usage,
) or die "Try $0 -h for help";

print "Do you want to map $font? (y/n)";
chomp( my $answer = lc <STDIN> );

$font = lc( $font );
$font =~ s/ /_/;
$font =~ s/(.*?)\.ttf/$1/;

if ( $answer eq "y" ) {
    map_font();
}
else {
    restore_map();
}

foreach ( @ARGV ) {

    my $modfile = "$_";

    $modfile =~ s/.*\/(.*)/uni$1/;

    process_file( $_, $modfile );
}

sub process_file {

    my @options = @_;

    open my $source, '<', "$options[0]";
    my $result = $options[1];
    my $test   = "./text";
    my $missingchar = join( "|", map( quotemeta, sort { length $b <=> length $a } keys %map ) );

    while ( <$source> ) {
        $/ = undef;
        s/h;/u;/g;       #Might need change based on the tamil font
        s/N(.)/$1N/g;    #Might need change based on the tamil font
        s/n(.)/$1n/g;    #Might need change based on the font
        s/($missingchar)/$map{$1}/g;

        print "$_";

        open my $final, '>:utf8', "$result";
        print $final "$_";
        close $final;
    }
}

sub map_font {

    my @oddhexes = qw/0B95 0B99 0B9A 0B9E 0B9F 0BA3 0BA4 0BA8 0BAA 0BAE 0BAF 0BB0 0BB2 0BB5 0BB3 0BB4 0BB1 0BA9/;
    my @missingletters = qw/0BC1 0BC2/;
    my @rest = qw/0B85 0B86 0B87 0B88 0B89 0B8A 0B8E 0B8F 0B90 0B92 0B93 0B83  0BBE  0BBF  0BC0  0BC6  0BC7  0BC8  0BCD  0B9C  0BB7  0BB8  0BB9 0BCB 0BCA 0BCC/;

    foreach ( @oddhexes ) {

        my $oddhex = $_;

        $_ = encode( 'utf8', chr( hex( $_ ) ) );
        print "Press the key for $_   :";
        chomp( my $bole = <STDIN> );
        if ( $bole eq "" ) {
            next;
        }

        $map{$bole} = $_;

        foreach ( @missingletters ) {

            my $oddchar = encode( 'utf8', chr( hex( $oddhex ) ) . chr( hex( $_ ) ) );

            print "Press the key for $oddchar   :";
            chomp( my $missingchar = <STDIN> );
            if ( $missingchar eq "" ) {
                next
            }

            $map{$missingchar} = $oddchar;
        }

    }

    foreach ( @rest ) {

        $_ = encode( 'utf8', chr( hex( $_ ) ) );

        print "Press the key for $_   :";
        chomp( my $misc = <STDIN> );
        if ( $misc eq "" ) {
            next
        }

        $map{$misc} = $_;
    }

    open my $OUTPUT, '>', $font || die "can't open file";
    print $OUTPUT dump( \%map );
    close $OUTPUT;
}

sub restore_map {

    open my $in, '<', "$font" || die "can't open file: $!";

    {
        local $/;
        %map = %{ eval <$in> };
    }

    close $in;
}

sub usage {
    print "\nUsage: $0 [options] {file1.txt file2.txt..} \neg: $0 -f TamilBible.ttf chapter.txt\n\nOptions:\n  -f --font - used to pass font name\n  -h --help - Prints help\n\nManual mapping of font is essential for using this program\n";
    exit;
}

在子例程process_file中,print "$_";的输出在terminal中显示正确的泰米尔语Unicode字符。

但是output to the file handle $final非常不同。

%maphere

为什么输出不同?

如何更正此行为?

我见过这个question,但这不一样。在我的情况下,终端显示正确的结果,而文件句柄输出是不同的。

1 个答案:

答案 0 :(得分:9)

您的公开声明

open my $final, '>:utf8', "$result";

将文件句柄设置为期望字符,然后在出路时编码为UTF-8序列。但是你要从%map哈希发送预先编码的字节序列,这会导致这些字节被视为字符,并由Perl IO再次编码

相比之下,您的终端设置为期望UTF-8编码的数据,但STDOUT未设置为完全执行任何编码(use open ':std'对其自身没有影响,请参阅下文因此它将UTF-8编码的字节传递给未更改的,这恰好是终端期望的

顺便说一句,您已为输入和输出流设置了:encoding(UTF-8)的默认打开模式

use open ':encoding(UTF-8)'

但在致电open时已将其覆盖。 :utf8模式从宽字符到字节序列进行了非常基本的转换,但:encoding(UTF-8)更有用,因为它检查每个正在打印的字符是否是有效的Unicode值。它很可能会遇到这样的错误,最好是允许默认并只写

open my $final, '>', $result;

为了保持干净整洁,您的程序应该在字符中工作,并且应该设置文件句柄,以便在打印这些字符时将这些字符编码为UTF-8

您可以通过添加

将UTF-8设置为所有新打开的文件句柄以及STDINSTDOUT的默认编码
use open qw/ :std :encoding(utf-8) /;

到您的计划的顶部(:encoding(utf-8)优于:utf8)并删除encode的所有调用。你几乎没有,但:std:encoding(utf-8)需要在同一个use声明中

您还应该添加

use utf8;

位于最顶层,以便您可以在程序本身中使用UTF-8字符

您还有一些偶然的错误。例如

  • 在声明中

    open my $in, '<', "$font" || die "can't open file: $!";
    

    引用单个标量变量(如$font几乎总是错误的,除非它碰巧是一个对象并且你想调用字符串化方法

    您需要or而不是||,否则您只是在测试$font

    的真相

    如果我问你一个名为$in的变量可能包含什么,我想你会犹豫不决; $in_fh更好,是一种常见的习语

    将文件的名称放入die字符串以及$! 中的原因总是很好的

    考虑所有这些因素使您的陈述看起来像这样

    open my $in_fh, '<', $font or die qq{Unable to open "$font" for input: $!};
    
  • 大写和小写标量变量之间应该保持一致,小写是正确的选择。所以

    open my $OUTPUT, '>', $font || die "can't open file";
    

    应该是

    open my $out_fh, '>', $font or die qq{Unable to open "$font" for output: $!};
    
  • 该行

    $/ = undef;
    

    应该是local $/,就像你在别处使用的那样,否则你将永久修改你的程序和模块的其余部分的输入记录分隔符。在第一次从文件句柄读取后,它也会出现,因此您的程序将读取并处理一行,然后在while的下一次迭代中处理整个文件的其余部分环