Question

我有一个用UTF-8编码的非常大的文本文件（~150 MB）。文本内容包含UTF-8可读字符和实体编号。

当文本编辑器（TextWrangler，NotePad ++ ...）显示时，文本内容如下：

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/z&#652;&#618;/ (g&#601;&#650;m&#601;)</FONT>

当Web浏览器读取此文本文件时，内容将正确显示为：

我希望将所有UTF-8号码（如gəʊmə）转换为可读字符（例如gəʊmə），这样当文本编辑器打开时，文本文件将会是这样的：

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>

我尝试过使用TextWrangler和Notepad ++提供的编码工具......但没有运气。（有一些在线工具可以执行此任务，但我的文本文件对他们来说太大了。）

我想知道是否有工具或方法将这些UTF-8号码转换为等效的可读字符。

你能帮帮忙吗？谢谢。

Answer 1

EditPad Pro可以做到这一点：

screenshot pre-conversion

使用Convert -  and  -> Character命令（并假设当前文件设置为UTF-8并且您使用的字体包含所需的字形），您将获得

screenshot post-conversion

保存时，您可以选择正确的带有或不带BOM的UTF-8编码文件。

_{免责声明：我是EPP德语版的翻译员（但我是免费的，因为这个编辑器很棒）。}

Answer 2

你可以试试这个http://www.artlebedev.ru/tools/decoder/工具（俄语）。

翻译版本：http://bit.ly/15O0eQW（英文）

<强>更新