mb_detect_encoding()没有按预期工作?

时间:2014-05-18 21:21:11

标签: php character-encoding

如果我没有把我的头发剪得这么短,我会因为这个问题而把它全部拉出来哈哈!非常感谢任何帮助,真的,因为这个我会发疯!

所以我有一个来自(不是我选择的)mysql数据库中的latin1表的数据字符串,如下所示:

 Hi! I'm a string of text .

最后的符号是表情符号unicode字符,U + 1F61C(这是一个古怪的笑脸)。我无法弄清楚如何在这个问题中正确显示它,但无论如何,当我将字符串输出到html文档中的浏览器(编码为utf-8)时,我能够很好地看到它。

<html>
  <head>
    <meta charset='utf-8'>
  </head>
    <body>
      <?php echo $text; ?> // outputs the string with the emoji showing correctly
    </body>
</html>

我的基本问题是我正在尝试从$ text字符串中删除此表情符号。或者更确切地说,我正在尝试从我从数据库中取出的字符串中删除任何非标点符号和非字母数字字符(我的程序只需要获取正常的会话文本,而不是任何内容)别的褶边)。

好吧,我想我首先尝试删除表情符号字符,所以我查看了stackoverflow并找到了this example。不幸的是,它不起作用 - 表情符号根本没有删除,字符串保持不变。

// Outputs the original string
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

然后我想,为什么不尝试删除所有非标点符号和非字母字符,就像我想要的那样?所以我环顾了stackoverflow并找到了this example。但奇怪的是,它也不起作用---字符串保持不变。

// Also outputs the original string
echo preg_replace( '/[^a-zA-Z0-9\s\p{P}]/', '', $text );

所以我在想,这很奇怪,至少应该删除标点符号,对吧?字符串可能有些不对劲?所以我尝试在其上运行mb_detect_encoding()以查看PHP检测到的内容,并且输出表示“ASCII”。

// Outputs "ASCII"
echo mb_detect_encoding( $text, mb_detect_order(''), true );

我想我想知道,这回来似乎是一个奇怪的结果吗?如果我理解正确,不是ASCII只是一小部分字符,不包括表情符号unicode符号?但也许,更广泛的问题可能是为什么标点符号删除代码不起作用,我想也许我正在使用preg_replace错误。所以我在另一组不同的字符上再次尝试了preg_replace:

// Outputs "Hi! I'm a text ."
echo preg_replace( '/string of/', '', $text );

......而且工作得很好。我很困惑!

所以我在想,我想有些东西与数据库中的数据相混淆,也许我应该尝试将字符串编码强制为utf-8?所以我尝试了下面的代码,这也不起作用,我猜是因为PHP已经检测到字符串为ASCII,所以它不会转换为utf-8?我不知道。

//  Outputs "ASCII" still, and also the original string
$text = iconv( mb_detect_encoding( $text, mb_detect_order(''), true ), "UTF-8", $text );
echo mb_detect_encoding( $first_post_text, mb_detect_order(''), true );
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

我甚至在字符串上尝试了一个扁平的utf8_encode()(因为我认为数据来自latin1数据库所以也许它是用ISO-8859-1编码的......也许?)但也没有运气 - - 它仍然是相同的字符串,它仍然说它是ASCII,这似乎不正确。

最后,我认为preg_replace函数本身可能有些问题,但这里有一个奇怪的部分---你还记得上面那个简单的html文档吗?好吧,我决定创建一个简单的表单,将整个文档(使用javascript)通过POST变量发送到另一个PHP页面(html标签,文本和所有)。当我在下一页并在POST数据上运行mb_detect_encoding()时,它实际上输出了UTF-8 ---而且不仅如此,当我从上面运行preg_replace代码时,它正在工作!

有没有人对可能出现的问题有任何想法?任何有关这方面的帮助将不胜感激!我承认自己并不是角色编码的好朋友,而且我正试图将这一切都弄清楚!

1 个答案:

答案 0 :(得分:0)

一种可能的解释:

如果数据库不包含unicode字符本身,但只包含html实体(&#128540;&#x1f61c;),则字符串替换将失败。它还将解释如何在latin1字符集中显示unicode字符,以及检测到的ascii编码。

之类的东西
echo str_replace( array('&#128540;','&#x1f61c;'), '', $text );

会适用于那种情况。