从linux终端运行PERL脚本时保留强调字母

时间:2014-12-12 07:17:15

标签: linux perl unicode non-ascii-characters

我想从法语维基百科转储XML文件中获取纯文本文件。 为此,我正在应用Perl脚本

如果需要,我可以提供完整的文件,我只添加了行

tr/a-zàâééèëêîôûùç-/ /cs;

到这里的脚本:http://mattmahoney.net/dc/textdata.html

但是,当我在linux终端上运行时:

perl filterwikifr.pl frwiki.xml > frwikiplaintext.txt  

输出文本文件无法正确打印突出显示的字母。例如,我得到catégorie而不是catégorie......

我也尝试过:

perl -CS filterwikifr.pl frwiki.xml > frwikiplaintext.txt

没有更好的成功(和其他变体而不是-CS...

1 个答案:

答案 0 :(得分:1)

问题在于文本编辑器gedit。

如果不是直接打开文件,而是打开gedit,然后转到"打开"在"字符编码"中,我选择UTF-8而不是"自动检测",然后正确打印重音。