以utf8格式恢复变音符号 - Linux

时间:2012-06-30 14:13:30

标签: utf-8 text-files restore diacritics

我有几个充满这样句子的文本文件:“Mais,tu n'as pas fait tes devoirs?!” - \ u00c9l \ u00e8ve:“Ben non”

是否有快速方法(脚本或实用程序)以utf8格式恢复所有变音符号? (预期结果:Élève:“Ben non”)

我可以用sed手动完成,但由于我的文本文件中包含多种语言特有的变音符号,因此需要花费太多时间。

非常感谢

2 个答案:

答案 0 :(得分:1)

我发现了......

python -c "print (open('filetoconvert.txt','rb').read().decode('unicode-escape').encode('utf-8'))"

答案 1 :(得分:0)

如果安装了Java JDK,则会有一个名为native2ascii的实用程序,用于将文件转换为unicode转义和从unicode转义转换文件。例如:

native2ascii -reverse filetoconvert.txt > converted.txt