我有几个充满这样句子的文本文件:“Mais,tu n'as pas fait tes devoirs?!” - \ u00c9l \ u00e8ve:“Ben non”
是否有快速方法(脚本或实用程序)以utf8格式恢复所有变音符号? (预期结果:Élève:“Ben non”)
我可以用sed手动完成,但由于我的文本文件中包含多种语言特有的变音符号,因此需要花费太多时间。
非常感谢
答案 0 :(得分:1)
我发现了......
python -c "print (open('filetoconvert.txt','rb').read().decode('unicode-escape').encode('utf-8'))"
答案 1 :(得分:0)
如果安装了Java JDK,则会有一个名为native2ascii
的实用程序,用于将文件转换为unicode转义和从unicode转义转换文件。例如:
native2ascii -reverse filetoconvert.txt > converted.txt