Question

假设您有一个包含UTF-8字符和UTF-8字符的文件，曾经被认为是ISO-8859-1的程序读过。所以你有“Ã”而不是“é”之类的东西。你是怎么解决的？

Answer 1

我终于想出了一个单独的sed命令，为我完成了这项工作：

LANG='' sed -re 's/(\xc3)\x83\xc2([\x80-\xbf])/\1\2/g'

它不处理unicode代码点0xA0到0xBF，但它应该很容易适应那些。