应用错误收集

时间：2016-02-08 15:14:45

标签： encode

我发布了一个应用，我发现其中一些评论是这样的：&ETH;&nbsp;&ETH;&micro;&ETH;&ordm;&ETH;&deg;&ETH;&frac14;&ETH;&micro;&ETH;&acute;&Ntilde;

我已经google了很多，我无法对其进行解码，因此评论不会以这种方式显示。这是它存储在数据库中的方式;它可以是西里尔语，但我也无法解码它。关于如何理解这种评论的任何线索？

答案 0 :(得分：1)

这些似乎是双重编码的HTML实体。例如，&已转为&，然后又转为&amp;

使用this online tool（还有许多其他数据）对数据进行两次解码时，结果为

ÐÐμÐºÐ°Ð¼ÐμÐ'Ñ

这可能是Unicode数据，例如UTF-8采用非西方字符集，如西里尔语或阿拉伯语，

被误解为单字节输入
被错误的“卫生”方法弄乱了，可能是对PHP htmlentities()的一两次调用（在旧版本中默认采用单字节ISO-8859-1编码，因此调用此方法功能可能是问题的全部来源）。

修复可能需要在服务器端。

如果您使用的是PHP，请参阅UTF-8 all the way through以获取方便的指南。