当将来自外部源的文本粘贴到纯文本编辑器(例如TextMate或Sublime Text 2)时,常见的问题是特殊字符也经常被粘贴。其中一些字符渲染得很好,但根据来源,有些可能无法正确显示(通常显示为带有围绕它的框的问号)。
所以这实际上是两个问题:
给定一个特殊字符(例如'或♥),我可以确定用于在文本编辑器中显示该字符的UTF-8字符代码,和/或将这些字符转换为字符代码吗?
对于那些以垃圾形式出现的“特殊”字符,有没有办法弄清楚在源文本中用什么编码来显示该字符,并且这些字符可以某种方式转换为UTF- 8?
答案 0 :(得分:17)
我最喜欢的查找字符的网站是fileformat.info。它们具有很棒的Unicode字符搜索功能,其中包含有关每个字符及其各种编码的大量有用信息。
如果您看到带有框的问号,则表示您粘贴了无法解释的内容,通常是因为它不合法UTF-8(并非每个字节序列都是合法的UTF-8)。一种可能性是它的UTF-16具有编辑器不期望的endian模式。如果您可以将完整的原始源文件放入文件中,file
命令通常是确定编码的最佳工具。
答案 1 :(得分:7)