应用错误收集

如何在文本编辑器中找到特殊字符的字符代码？

时间：2012-10-29 14:09:19

标签： text utf-8 character-encoding textmate sublimetext2

当将来自外部源的文本粘贴到纯文本编辑器（例如TextMate或Sublime Text 2）时，常见的问题是特殊字符也经常被粘贴。其中一些字符渲染得很好，但根据来源，有些可能无法正确显示（通常显示为带有围绕它的框的问号）。

所以这实际上是两个问题：

给定一个特殊字符（例如'或♥），我可以确定用于在文本编辑器中显示该字符的UTF-8字符代码，和/或将这些字符转换为字符代码吗？
对于那些以垃圾形式出现的“特殊”字符，有没有办法弄清楚在源文本中用什么编码来显示该字符，并且这些字符可以某种方式转换为UTF- 8？

2 个答案:

答案 0 :(得分：17)

我最喜欢的查找字符的网站是fileformat.info。它们具有很棒的Unicode字符搜索功能，其中包含有关每个字符及其各种编码的大量有用信息。

如果您看到带有框的问号，则表示您粘贴了无法解释的内容，通常是因为它不合法UTF-8（并非每个字节序列都是合法的UTF-8）。一种可能性是它的UTF-16具有编辑器不期望的endian模式。如果您可以将完整的原始源文件放入文件中，file命令通常是确定编码的最佳工具。

答案 1 :(得分：7)

在&what我建立了一个专注于搜索角色的工具。它为所有Unicode和HTML实体表编制索引，还补充了黑客字典和我收集的关键字数据库，因此您可以搜索heart，quot，weather等字词，umlaut，hash，cloverleaf并获得您想要的内容。通过专注于搜索，它避免了必须围绕Unicode页面进行搜索，这可能令人沮丧。试一试。