在Web浏览器中查看时,中文文本编码缺少字符

时间:2016-12-14 18:15:27

标签: html encoding utf-8 character-encoding cjk

我有一个包含中文文本的HTML文件。当我在任何Web浏览器中打开文件时,有些字符似乎缺失。

这是从浏览器窗口复制的示例:

本函旨在邀请您参��定于

我知道这里看到的所有其他角色除了缺失的角色外都是正确的(由中国本土人士确认)。

在HTML标题中,我有一个标记,表示该文件包含UTF-8编码字符:

<META http-equiv="Content-Type" content="text/html; charset=utf-8">

我已经在这个META标签中尝试了其他一些字符集,但到目前为止,似乎我尝试使用UTF-8的任何编码方法最终看起来更糟。

我还考虑过它是字体问题的可能性,所以我在我的系统上安装了3种不同的繁体中文字体,并迫使Chrome使用它们。他们都没有任何区别 - 缺少的角色仍然存在。

如果我用Notepad ++打开HTML文件,我可以看到:

http://i.imgur.com/GoS07WX.png

如果我选择并将此文本复制粘贴到常规MS记事本中,我会得到:

本函旨在邀请您参劦NBSP;定于

所以你可以在这里看到&#34; xE5 x8A&#34; Notepad ++中可见的内容似乎已被替换为劦。

在这种情况下,浏览器是否有任何理由显示��而不是??

1 个答案:

答案 0 :(得分:0)

再看一下HTML文件。

我看到以UTF-8编码的字符的前2个字节,然后是...让我们想象最初有一个\ xA0,当通过应用全局创建文件时,这被突变为&nbsp;替换为UTF-8编码的数据。

然而,\ xE5 \ x8A \ xA0 UTF-8解码为U + 52A 0 ,这与U + 52A 6 的外星人字符不同。 ..不够接近答案。