我想从法语维基百科转储XML文件中获取纯文本文件。 为此,我正在应用Perl脚本
如果需要,我可以提供完整的文件,我只添加了行
tr/a-zàâééèëêîôûùç-/ /cs;
到这里的脚本:http://mattmahoney.net/dc/textdata.html
但是,当我在linux终端上运行时:
perl filterwikifr.pl frwiki.xml > frwikiplaintext.txt
输出文本文件无法正确打印突出显示的字母。例如,我得到catégorie而不是catégorie......
我也尝试过:
perl -CS filterwikifr.pl frwiki.xml > frwikiplaintext.txt
没有更好的成功(和其他变体而不是-CS...
)
答案 0 :(得分:1)
问题在于文本编辑器gedit。
如果不是直接打开文件,而是打开gedit,然后转到"打开"在"字符编码"中,我选择UTF-8而不是"自动检测",然后正确打印重音。