如何在文本编辑器中找到特殊字符的字符代码?

时间:2012-10-29 14:09:19

标签: text utf-8 character-encoding textmate sublimetext2

当将来自外部源的文本粘贴到纯文本编辑器(例如TextMate或Sublime Text 2)时,常见的问题是特殊字符也经常被粘贴。其中一些字符渲染得很好,但根据来源,有些可能无法正确显示(通常显示为带有围绕它的框的问号)。

所以这实际上是两个问题:

  1. 给定一个特殊字符(例如'或♥),我可以确定用于在文本编辑器中显示该字符的UTF-8字符代码,和/或将这些字符转换为字符代码吗?

  2. 对于那些以垃圾形式出现的“特殊”字符,有没有办法弄清楚在源文本中用什么编码来显示该字符,并且这些字符可以某种方式转换为UTF- 8?

2 个答案:

答案 0 :(得分:17)

我最喜欢的查找字符的网站是fileformat.info。它们具有很棒的Unicode字符搜索功能,其中包含有关每个字符及其各种编码的大量有用信息。

如果您看到带有框的问号,则表示您粘贴了无法解释的内容,通常是因为它不合法UTF-8(并非每个字节序列都是合法的UTF-8)。一种可能性是它的UTF-16具有编辑器不期望的endian模式。如果您可以将完整的原始源文件放入文件中,file命令通常是确定编码的最佳工具。

答案 1 :(得分:7)

&what我建立了一个专注于搜索角色的工具。它为所有Unicode和HTML实体表编制索引,还补充了黑客字典和我收集的关键字数据库,因此您可以搜索heartquotweather等字词,umlauthashcloverleaf并获得您想要的内容。通过专注于搜索,它避免了必须围绕Unicode页面进行搜索,这可能令人沮丧。试一试。