我正在编写一个Perl程序,将我的本地语言ASCII字符转换为Unicode字符(泰米尔语)。
这是我的程序
#!/bin/perl
use strict;
use warnings;
use open ':std';
use open ':encoding(UTF-8)';
use Encode qw( encode decode );
use Data::Dump qw(dump);
use Getopt::Long qw(GetOptions);
Getopt::Long::Configure qw(gnu_getopt);
my $font;
my %map;
GetOptions(
'font|f=s' => \$font,
'help|h' => \&usage,
) or die "Try $0 -h for help";
print "Do you want to map $font? (y/n)";
chomp( my $answer = lc <STDIN> );
$font = lc( $font );
$font =~ s/ /_/;
$font =~ s/(.*?)\.ttf/$1/;
if ( $answer eq "y" ) {
map_font();
}
else {
restore_map();
}
foreach ( @ARGV ) {
my $modfile = "$_";
$modfile =~ s/.*\/(.*)/uni$1/;
process_file( $_, $modfile );
}
sub process_file {
my @options = @_;
open my $source, '<', "$options[0]";
my $result = $options[1];
my $test = "./text";
my $missingchar = join( "|", map( quotemeta, sort { length $b <=> length $a } keys %map ) );
while ( <$source> ) {
$/ = undef;
s/h;/u;/g; #Might need change based on the tamil font
s/N(.)/$1N/g; #Might need change based on the tamil font
s/n(.)/$1n/g; #Might need change based on the font
s/($missingchar)/$map{$1}/g;
print "$_";
open my $final, '>:utf8', "$result";
print $final "$_";
close $final;
}
}
sub map_font {
my @oddhexes = qw/0B95 0B99 0B9A 0B9E 0B9F 0BA3 0BA4 0BA8 0BAA 0BAE 0BAF 0BB0 0BB2 0BB5 0BB3 0BB4 0BB1 0BA9/;
my @missingletters = qw/0BC1 0BC2/;
my @rest = qw/0B85 0B86 0B87 0B88 0B89 0B8A 0B8E 0B8F 0B90 0B92 0B93 0B83 0BBE 0BBF 0BC0 0BC6 0BC7 0BC8 0BCD 0B9C 0BB7 0BB8 0BB9 0BCB 0BCA 0BCC/;
foreach ( @oddhexes ) {
my $oddhex = $_;
$_ = encode( 'utf8', chr( hex( $_ ) ) );
print "Press the key for $_ :";
chomp( my $bole = <STDIN> );
if ( $bole eq "" ) {
next;
}
$map{$bole} = $_;
foreach ( @missingletters ) {
my $oddchar = encode( 'utf8', chr( hex( $oddhex ) ) . chr( hex( $_ ) ) );
print "Press the key for $oddchar :";
chomp( my $missingchar = <STDIN> );
if ( $missingchar eq "" ) {
next
}
$map{$missingchar} = $oddchar;
}
}
foreach ( @rest ) {
$_ = encode( 'utf8', chr( hex( $_ ) ) );
print "Press the key for $_ :";
chomp( my $misc = <STDIN> );
if ( $misc eq "" ) {
next
}
$map{$misc} = $_;
}
open my $OUTPUT, '>', $font || die "can't open file";
print $OUTPUT dump( \%map );
close $OUTPUT;
}
sub restore_map {
open my $in, '<', "$font" || die "can't open file: $!";
{
local $/;
%map = %{ eval <$in> };
}
close $in;
}
sub usage {
print "\nUsage: $0 [options] {file1.txt file2.txt..} \neg: $0 -f TamilBible.ttf chapter.txt\n\nOptions:\n -f --font - used to pass font name\n -h --help - Prints help\n\nManual mapping of font is essential for using this program\n";
exit;
}
在子例程process_file
中,print "$_";
的输出在terminal中显示正确的泰米尔语Unicode字符。
但是output to the file handle $final
非常不同。
%map
为here。
为什么输出不同?
如何更正此行为?
我见过这个question,但这不一样。在我的情况下,终端显示正确的结果,而文件句柄输出是不同的。
答案 0 :(得分:9)
您的公开声明
open my $final, '>:utf8', "$result";
将文件句柄设置为期望字符,然后在出路时编码为UTF-8序列。但是你要从%map
哈希发送预先编码的字节序列,这会导致这些字节被视为字符,并由Perl IO再次编码
相比之下,您的终端设置为期望UTF-8编码的数据,但STDOUT
未设置为完全执行任何编码(use open ':std'
对其自身没有影响,请参阅下文因此它将UTF-8编码的字节传递给未更改的,这恰好是终端期望的
顺便说一句,您已为输入和输出流设置了:encoding(UTF-8)
的默认打开模式
use open ':encoding(UTF-8)'
但在致电open
时已将其覆盖。 :utf8
模式从宽字符到字节序列进行了非常基本的转换,但:encoding(UTF-8)
更有用,因为它检查每个正在打印的字符是否是有效的Unicode值。它很可能会遇到这样的错误,最好是允许默认并只写
open my $final, '>', $result;
为了保持干净整洁,您的程序应该在字符中工作,并且应该设置文件句柄,以便在打印这些字符时将这些字符编码为UTF-8
您可以通过添加
将UTF-8设置为所有新打开的文件句柄以及STDIN
和STDOUT
的默认编码
use open qw/ :std :encoding(utf-8) /;
到您的计划的顶部(:encoding(utf-8)
优于:utf8
)并删除对encode
的所有调用。你几乎没有,但:std
和:encoding(utf-8)
需要在同一个use
声明中
您还应该添加
use utf8;
位于最顶层,以便您可以在程序本身中使用UTF-8字符
您还有一些偶然的错误。例如
在声明中
open my $in, '<', "$font" || die "can't open file: $!";
引用单个标量变量(如$font
几乎总是错误的,除非它碰巧是一个对象并且你想调用字符串化方法
您需要or
而不是||
,否则您只是在测试$font
如果我问你一个名为$in
的变量可能包含什么,我想你会犹豫不决; $in_fh
更好,是一种常见的习语
将文件的名称放入die
字符串以及$!
中的原因总是很好的
考虑所有这些因素使您的陈述看起来像这样
open my $in_fh, '<', $font or die qq{Unable to open "$font" for input: $!};
大写和小写标量变量之间应该保持一致,小写是正确的选择。所以
open my $OUTPUT, '>', $font || die "can't open file";
应该是
open my $out_fh, '>', $font or die qq{Unable to open "$font" for output: $!};
该行
$/ = undef;
应该是local $/
,就像你在别处使用的那样,否则你将永久修改你的程序和模块的其余部分的输入记录分隔符。在第一次从文件句柄读取后,它也会出现,因此您的程序将读取并处理一行,然后在while
的下一次迭代中处理整个文件的其余部分环