使用File :: Slurp读取UTF8文件

时间:2015-06-01 09:00:13

标签: perl encoding fileslurp

我尝试使用Perl模块File::Slurp读取HTML文件:

binmode STDOUT, ':utf8';
my $htmlcontent = read_file($file, {binmode => ':utf8'});

但是当我打印$htmlcontent变量时,由于法语口音或特殊字符,某些字符无法理解。

例如:"Plus d'actualit\u00e9s"应为"Plus d'actualités"

我还检查了文件的编码,它没问题!

HTML document, UTF-8 Unicode text, with very long lines, with CRLF, LF line terminators

这个模块有问题吗?

由于

1 个答案:

答案 0 :(得分:2)

\u00e9不是UTF-8字符,是Unicode字符的JavaScript代表。例如,您需要使用Encode::JavaScript::UCS解码文件内容。