character-encoding - 字符将非标准字符编码为HTML

字符将非标准字符编码为HTML

时间：2014-06-14 16:51:26

标签： character-encoding special-characters

我有很多包含文章的文本文件。我不知道怎么称呼我正面临的问题。像这样的东西，字母'o'（呼叫正常）和'о'（呼叫尴尬）是不同的字母。相信我，他们可能在某些字体中看起来相同，但在其他一些字体中会有不同的表现形式，这让我发疯。

我试图将字母“o”（正常）转换为HTML实体，结果我得到了“o”但是当我用字母“о”（笨拙）这样做时，结果将是{{1} }。现在，我必须删除这些字符并重新键入新字符以解决问题。

我怎样才能将这些笨拙的角色更快地恢复正常？

我不能手动操作，因为它不仅是一个'o'而且还有许多其他角色，比如说'''，''s'，''s'，''s'，'是'等等。< / p>

我的英语不好。如果有任何拼写错误，我很抱歉。我也不确定这个头衔。有人可能会帮我修改它。感谢

2 个答案:

答案 0 :(得分：1)

你称之为“尴尬”的角色是U + 043E CYRILLIC SMALL LETTER O，о是使用HTML角色参考表示它的一种方式。它被视为与拉丁字母o不同，即使字符在包含两者的任何字体中具有相同的字形（至少在我所见过的所有字体中）。但是如果你声明一个不反对西里尔字母的字体，那么这两个字符（通常）看起来会有所不同，因为它们将取自不同的字体。（然后，西里尔字母取自某些与浏览器相关的后备字体。）

结论取决于角色出现的背景。如果西里尔字母出现在故意写在其中的单词中（例如，在讨论俄语的文档中的俄语单词），那么它们当然不应该“固定”。相反，您应该尝试找到包含它们的合适字体。

如果由于某些技术错误（例如，数据输入错误）而出现西里尔字母，并且您知道它们应该被拉丁字母替换，请执行此操作。如何执行此操作取决于创作环境，根本不是HTML问题。通常，您可以使用全局搜索和替换命令，并且您可能会找到一个工具来检查文件中的“异常”字符，以便您知道需要修复哪些字符（例如我的简单character frequency analyzer）。

答案 1 :(得分：0)

我认为您在这里遇到的是编码问题，您需要在文本编辑器中打开文件并将编码更改为UTF-8。如果你有Notepad ++，只需点击编码，然后点击转换为UTF-8。