如何将UTF-8数字转换为字符

时间:2013-10-05 09:46:05

标签: text encoding utf-8

我有一个用UTF-8编码的非常大的文本文件(~150 MB)。文本内容包含UTF-8可读字符和实体编号。

当文本编辑器(TextWrangler,NotePad ++ ...)显示时,文本内容如下:

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/z&#652;&#618;/ (g&#601;&#650;m&#601;)</FONT>

当Web浏览器读取此文本文件时,内容将正确显示为:

  • zygoma zygoma /zʌɪ/(gəʊmə)

我希望将所有UTF-8号码(如g&#601;&#650;m&#601;)转换为可读字符(例如gəʊmə),这样当文本编辑器打开时,文本文件将会是这样的:

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>

我尝试过使用TextWrangler和Notepad ++提供的编码工具......但没有运气。 (有一些在线工具可以执行此任务,但我的文本文件对他们来说太大了。)

我想知道是否有工具或方法将这些UTF-8号码转换为等效的可读字符。

你能帮帮忙吗?谢谢。

2 个答案:

答案 0 :(得分:2)

EditPad Pro可以做到这一点:

screenshot pre-conversion

使用Convert - &#65535; and &#xFFFF; -> Character命令(并假设当前文件设置为UTF-8并且您使用的字体包含所需的字形),您将获得

screenshot post-conversion

保存时,您可以选择正确的带有或不带BOM的UTF-8编码文件。


免责声明:我是EPP德语版的翻译员(但我是免费的,因为这个编辑器很棒)。

答案 1 :(得分:1)

你可以试试这个http://www.artlebedev.ru/tools/decoder/工具(俄语)。

翻译版本:http://bit.ly/15O0eQW(英文)

<强>更新

试试这个脚本https://gist.github.com/Funfun/6839052