当剥离UTF-8文本时,mb_substr在末尾添加3个点(...),并且当文本处于拉丁语时不添加它们

时间:2013-01-11 18:37:03

标签: php

我有这样的代码:

if(strlen($text)>=15)
$text=mb_substr($text, 0, 15, 'UTF-8');

它可以正常工作,但事实上,当文本是拉丁文(例如英文)时,当它将其剥离时,它最终不会显示3个点。另一方面,当文本处于需要UTF-8编码的其他语言时,它最后会添加3个点。

实施例

  

组成的细胞是什么

替换为

  

什么是细胞

另一方面:

  

で作られた细胞は何ですか

替换为

  

で作られた细...

我错过了什么?

1 个答案:

答案 0 :(得分:2)

这是因为strlen()以二进制形式返回字符串的长度,即八位字节数。

因为utf8以与例如相同的方式表示ASCII。 iso-8859-1,字符数和八位字节数没有区别。但是,对于ASCII以外的字符,每个utf8字符最多可占用三个八位字节,例如亚洲字符。

因此,要正确确定字符数,您需要使用mb_strlen()