PHP strlen和mb_strlen没有按预期工作

时间:2011-07-05 22:42:31

标签: php character-encoding

PHP函数strlen()和mb_strlen()在字符串上运行时都返回错误的字符数。

这是我正在使用的一段代码......

 $foo = mb_strlen($itemDetails['ITEMDESC'], 'UTF-8');
 echo $foo;

它告诉我这个刺痛 - “4½”直的虹膜剪刀“长45个字符。它是27个。

它还告诉我,这个字符串 - “婴儿脚跟保暖器,无粘性附件垫,100 / cs”是54,这是正确的。

我认为它在字符编码方面存在一些问题,我认为一切都应该是UTF-8。我已经尝试过为几个不同的字符编码类型提供mb_strlen(),并且它们都返回这个奇怪的数字,并带有那些非标准字符的字符串。

我不知道为什么会这样。

2 个答案:

答案 0 :(得分:1)

仔细检查您的文字是否真的是UTF-8。那个“”字符使它看起来像一个经典的字符编码问题。您应该检查从文本原点到上面引用的代码中的点的整个路径,因为有很多地方可以编码。

文本是否来自HTML表单?确保您的<form>元素包含accept-charset="UTF-8"属性。

文本是否一路上存储在数据库中?确保数据库存储并以UTF-8返回数据。这意味着检查服务器的全局默认值,数据库或模式的默认值以及表本身。

答案 1 :(得分:0)

您的输入很可能是以UTF-16编码的。 您可以转换为UTF-8

$foo = mb_strlen(mb_convert_encoding($itemDetails['ITEMDESC'], "UTF-8", "UTF-16"));

或者如果您使用mb_strlen(),请确保使用正确的编码作为第二个参数。

$foo = mb_strlen($itemDetails['ITEMDESC'], "UTF-16");

如果没有正确的编码,mb_strlen将始终返回错误的结果。当你处理UTF-8/16/32编码的字符串时,很容易陷入麻烦。 mb_detect_encoding()无法解决此问题。