Question

我有几个充满这样句子的文本文件：“Mais，tu n'as pas fait tes devoirs？！” - \ u00c9l \ u00e8ve：“Ben non”

是否有快速方法（脚本或实用程序）以utf8格式恢复所有变音符号？（预期结果：Élève：“Ben non”）

我可以用sed手动完成，但由于我的文本文件中包含多种语言特有的变音符号，因此需要花费太多时间。

非常感谢

Answer 1

我发现了......

python -c "print (open('filetoconvert.txt','rb').read().decode('unicode-escape').encode('utf-8'))"

Answer 2

如果安装了Java JDK，则会有一个名为native2ascii的实用程序，用于将文件转换为unicode转义和从unicode转义转换文件。例如：

native2ascii -reverse filetoconvert.txt > converted.txt