如何解码用户的意外字符串?

时间:2016-02-08 15:14:45

标签: encode

我发布了一个应用,我发现其中一些评论是这样的:РекамедÑ

我已经google了很多,我无法对其进行解码,因此评论不会以这种方式显示。这是它存储在数据库中的方式;它可以是西里尔语,但我也无法解码它。关于如何理解这种评论的任何线索?

1 个答案:

答案 0 :(得分:1)

这些似乎是双重编码的HTML实体。例如,&已转为&,然后又转为&

使用this online tool(还有许多其他数据)对数据进行两次解码时,结果为

  

ÐÐμкамÐμÐ'Ñ

这可能是Unicode数据,例如UTF-8采用非西方字符集,如西里尔语或阿拉伯语,

  1. 被误解为单字节输入
  2. 被错误的“卫生”方法弄乱了,可能是对PHP htmlentities()的一两次调用(在旧版本中默认采用单字节ISO-8859-1编码,因此调用此方法功能可能是问题的全部来源)。
  3. 修复可能需要在服务器端。

    如果您使用的是PHP,请参阅UTF-8 all the way through以获取方便的指南。