我正在尝试在PHP中读取一些使用Unicode的一些Word文档,一些像希伯来语或阿拉伯语的东西。但它以二进制读取并变成一些非场景字符。我搜索了一些示例代码但不是那些正常工作的代码,您是否有使用阿拉伯语和希伯来语等Unicode文档的经验?谢谢
答案 0 :(得分:1)
PHP的一个缺点是(至少直到最近)一直是Unicode无知的。你通常只是忽略了这样一个事实:你正在阅读的是Unicode,并且希望你的文档最终的Web浏览器知道如何处理Unicode。 PHP不会破坏任何东西,它只是不关心。
根据您的尝试,PHP中有一些新增功能可以改进Unicode处理。其中包括mb_
字符串函数,它们处理多字节字符串。
您还需要了解文本在Word文档中的编码方式。 Unicode支持多种格式,最受欢迎且最紧凑的格式为UTF-8
,但还有UTF-16
和UTF-32
。