字符将非标准字符编码为HTML

时间:2014-06-14 16:51:26

标签: character-encoding special-characters

我有很多包含文章的文本文件。我不知道怎么称呼我正面临的问题。像这样的东西,字母'o'(呼叫正常)和'о'(呼叫尴尬)是不同的字母。相信我,他们可能在某些字体中看起来相同,但在其他一些字体中会有不同的表现形式,这让我发疯。

我试图将字母“o”(正常)转换为HTML实体,结果我得到了“o”但是当我用字母“о”(笨拙)这样做时,结果将是{{1} }。现在,我必须删除这些字符并重新键入新字符以解决问题。

我怎样才能将这些笨拙的角色更快地恢复正常?

我不能手动操作,因为它不仅是一个'o'而且还有许多其他角色,比如说''',''s',''s',''s','是'等等。< / p>

我的英语不好。如果有任何拼写错误,我很抱歉。我也不确定这个头衔。有人可能会帮我修改它。感谢

2 个答案:

答案 0 :(得分:1)

你称之为“尴尬”的角色是U + 043E CYRILLIC SMALL LETTER O,&#1086;是使用HTML角色参考表示它的一种方式。它被视为与拉丁字母o不同,即使字符在包含两者的任何字体中具有相同的字形(至少在我所见过的所有字体中)。但是如果你声明一个不反对西里尔字母的字体,那么这两个字符(通常)看起来会有所不同,因为它们将取自不同的字体。 (然后,西里尔字母取自某些与浏览器相关的后备字体。)

结论取决于角色出现的背景。如果西里尔字母出现在故意写在其中的单词中(例如,在讨论俄语的文档中的俄语单词),那么它们当然不应该“固定”。相反,您应该尝试找到包含它们的合适字体。

如果由于某些技术错误(例如,数据输入错误)而出现西里尔字母,并且您知道它们应该被拉丁字母替换,请执行此操作。如何执行此操作取决于创作环境,根本不是HTML问题。通常,您可以使用全局搜索和替换命令,并且您可能会找到一个工具来检查文件中的“异常”字符,以便您知道需要修复哪些字符(例如我的简单character frequency analyzer)。

答案 1 :(得分:0)

我认为您在这里遇到的是编码问题,您需要在文本编辑器中打开文件并将编码更改为UTF-8。 如果你有Notepad ++,只需点击编码,然后点击转换为UTF-8。