我有很多图像是使用utf-8编码从SQL转储导入的。因此,代替“FF D8 FF E0”,我在jpeg图像的开头看到“C3 BF C3 98 C3 BF C3 A0”。
我已经尝试过iconv('utf-8','iso-8859-1',$ data)但它没有转换整个文件(utf-8中有chars,无法转换为iso-8859- 1。
如何将utf-8简单转换为单字节二进制文件而不考虑编码?
答案 0 :(得分:0)
问题是因为在UTF-8中存在一些相同字符的表示,称为“非最短”形式。这些字符可以通过数学方式转换,但iconv将它们视为错误而不能转换。
我做了一个简短的函数,它将任何utf-8字符的文本转换为Unicode(UTF-16)代码点数组。然后通过简单表将一些非ASCII值重新映射到ASCII(例如0x20ac与0x80相同,等等)。您可以在此处找到完整的代码和重新映射表:Converting UTF-8 with non-shortest characters to one-byte encoding