PHP阅读“Unicode”MS Word doc

时间:2011-08-07 09:05:37

标签: php unicode ms-word unicode-string

我正在尝试在PHP中读取一些使用Unicode的一些Word文档,一些像希伯来语或阿拉伯语的东西。但它以二进制读取并变成一些非场景字符。我搜索了一些示例代码但不是那些正常工作的代码,您是否有使用阿拉伯语和希伯来语等Unicode文档的经验?谢谢

1 个答案:

答案 0 :(得分:1)

PHP的一个缺点是(至少直到最近)一直是Unicode无知的。你通常只是忽略了这样一个事实:你正在阅读的是Unicode,并且希望你的文档最终的Web浏览器知道如何处理Unicode。 PHP不会破坏任何东西,它只是不关心。

根据您的尝试,PHP中有一些新增功能可以改进Unicode处理。其中包括mb_字符串函数,它们处理多字节字符串。

您还需要了解文本在Word文档中的编码方式。 Unicode支持多种格式,最受欢迎且最紧凑的格式为UTF-8,但还有UTF-16UTF-32