Question

我有一个90年代中期创建的.html文件集合，其中包含大量的韩文文本。 HTML缺少字符集元数据，因此当然所有韩文文本都无法正确呈现。以下示例将全部使用相同的文本摘录。

在Coda和Text Wrangler等文本编辑器中，文本显示为

╙╦╙╦№бя└К▓щ╥НВь╕цль▒Ф▓щ╥НВь╕цль▒Ф

在＆lt;中缺少字符集元数据的情况下头＆gt;由浏览器呈现为：

ÓË¼¼¡ÀÀ²²Òììææ«ì±“²éÒ，ì¸æ«ì±”

将euc-kr元数据添加到＆lt;头＆gt;

<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

产生以下内容，这是难以辨认的废话（由母语人士验证）：

沓숩∽핅꿴レレレ콛꿴 レレ콛

我尝试过这种方法，包括所有历史悠久的韩国字符集，每种字符集都会产生类似的不成功结果。我也尝试通过Beautiful Soup解析并升级到UTF-8，这也失败了。

查看Emacs中的文件似乎很有希望，因为它显示了较低级别的文本编码。以下是同一文本样本：

\ 323 \ 313 \ 274 \ 374 \ 241 \ 357 \ 300 \ 212 \ 262 \ 351 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224 \ 262 \ 3 \ 51 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224

如何识别此文本编码并将其提升为UTF-8？

Answer 1

emacs显示的所有八进制代码都小于254（或八进制中的\ 376），因此它看起来像是在Unicode范围内使用它自己的映射的那些旧的Unicode前字体之一。如果这是正确的，你只需要弄清楚它的用途是什么字体，找到它并自己做转换。

这是一种痛苦。很多年前，我为一些流行的Unicode前希腊字体做了类似的事情：http://litot.es/unicode-converter/（代码：https://github.com/seanredmond/Encoding-Converter）

Answer 2

最后，它是关于找到正确的字符编码并使用iconv。

iconv --list

显示所有可用的编码。为＆＃34; KR＆＃34;揭示至少我的系统可以做CSEUCKR，CSISO2022KR，EUC-KR，ISO-2022-KR和ISO646-KR。根据维基百科，韩语也是BIG5HKSCS，CSKSC5636和KSC5636。尝试所有这些，直到出现合理的东西。

Answer 3

即使该线程较旧，它仍然是一个问题，并且没有找到批量转换文件的方法（除了使用韩文版的Windows7），现在我正在使用Naver，它具有云服务像Google文档一样，如果您将那些奇怪编码的文件上传到那里，它会很好地处理它们。我只是编辑和复制文本，当我将其复制到其他地方时，它又恢复了标准。不是我喜欢的解决方案，但是它可以节省一些路人。您可以使用ID注册云帐户，即使您不居住在SKorea，也需要一些基本英语。

解码90年代的韩国文本文件

在Coda和Text Wrangler等文本编辑器中，文本显示为

将euc-kr元数据添加到＆lt;头＆gt;

3 个答案: