标签: character-encoding
假设您有一个包含UTF-8字符和UTF-8字符的文件,曾经被认为是ISO-8859-1的程序读过。所以你有“Ô而不是“é”之类的东西。你是怎么解决的?
答案 0 :(得分:1)
我终于想出了一个单独的sed命令,为我完成了这项工作:
LANG='' sed -re 's/(\xc3)\x83\xc2([\x80-\xbf])/\1\2/g'
它不处理unicode代码点0xA0到0xBF,但它应该很容易适应那些。