PHP函数strlen()和mb_strlen()在字符串上运行时都返回错误的字符数。
这是我正在使用的一段代码......
$foo = mb_strlen($itemDetails['ITEMDESC'], 'UTF-8');
echo $foo;
它告诉我这个刺痛 - “4½”直的虹膜剪刀“长45个字符。它是27个。
它还告诉我,这个字符串 - “婴儿脚跟保暖器,无粘性附件垫,100 / cs”是54,这是正确的。
我认为它在字符编码方面存在一些问题,我认为一切都应该是UTF-8。我已经尝试过为几个不同的字符编码类型提供mb_strlen(),并且它们都返回这个奇怪的数字,并带有那些非标准字符的字符串。
我不知道为什么会这样。
答案 0 :(得分:1)
仔细检查您的文字是否真的是UTF-8。那个“”字符使它看起来像一个经典的字符编码问题。您应该检查从文本原点到上面引用的代码中的点的整个路径,因为有很多地方可以编码。
文本是否来自HTML表单?确保您的<form>
元素包含accept-charset="UTF-8"
属性。
文本是否一路上存储在数据库中?确保数据库存储并以UTF-8返回数据。这意味着检查服务器的全局默认值,数据库或模式的默认值以及表本身。
答案 1 :(得分:0)
您的输入很可能是以UTF-16编码的。 您可以转换为UTF-8
$foo = mb_strlen(mb_convert_encoding($itemDetails['ITEMDESC'], "UTF-8", "UTF-16"));
或者如果您使用mb_strlen()
,请确保使用正确的编码作为第二个参数。
$foo = mb_strlen($itemDetails['ITEMDESC'], "UTF-16");
如果没有正确的编码,mb_strlen将始终返回错误的结果。当你处理UTF-8/16/32编码的字符串时,很容易陷入麻烦。 mb_detect_encoding()
无法解决此问题。