在perl中使用3部分打开时“无效参数”

时间:2014-01-16 21:49:41

标签: perl encoding

我对perl非常陌生(以及编程,就此而言)所以如果这只是一个愚蠢的错误,我很抱歉。

我正在尝试编写一个脚本,该脚本从.txt文件中提取文件列表,打开每个文件,查找与某些正则表达式匹配的行,并将这些行打印到结构中的新文件中有效的.csv文件(使用正则表达式中的捕获组)。

我的脚本适用于英文UTF-8文件,但是当它尝试处理非英文文件时,文本数据在每个字母之间显示空格并且正则表达式不匹配 - 我猜这是因为它们是以UTF-16保存。我的想法是将open命令分为三部分,因此它也对非英文文件使用“:encoding(UTF-16)”参数,但这导致了无效的参数错误。实际上,如果不使用两部分打开命令,我就无法运行脚本。

这是我的剧本。

use 5.010;
use strict;
use warnings;

use File::Slurp;

my @intfilelist = read_file('filelist_int.txt');

unlink "int_temp.csv";

foreach my $intfile (@intfilelist) {
    open (my $file, "<:encoding(UTF-16)", $intfile) or die "Whoops! $!";
    while (my $line = <$file>) {
        if ($line =~ m/^(\d{3,5})\t(.*)$/) {
            chomp $line;
            open (my $csv, ">>", "int_temp.csv");
            print $csv ("\"$intfile\",\"$1\",\"$2\"\n");
            close $csv;
        }
    }
}

open (my $file, "<:encoding(UTF-16)", $intfile)更改为open (my $file, $intfile)会导致脚本生效,但上述非英文文件问题除外。

就像我说的那样,我只和perl玩了2天,很抱歉如果我误用了一些术语或忽略了一些明显的东西。感谢任何帮助!

1 个答案:

答案 0 :(得分:9)

删除使用File::Slurp从第一个文件中读取的文件名末尾的换行符。您可以在chomp $intfile;之前使用open执行此操作。

chomp(请参阅Perldoc Chomp)从给定字符串的末尾删除换行符。