我有一个90年代中期创建的.html文件集合,其中包含大量的韩文文本。 HTML缺少字符集元数据,因此当然所有韩文文本都无法正确呈现。以下示例将全部使用相同的文本摘录。
╙╦╙╦№бя└К▓щ╥НВь╕цль▒Ф▓щ╥НВь╕цль▒Ф
在<中缺少字符集元数据的情况下头>由浏览器呈现为:
Ó˼¼¡ÀÀ²²Òììææ«ì±“²éÒ,ì¸æ«ì±”
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
产生以下内容,这是难以辨认的废话(由母语人士验证):
沓숩∽핅꿴レレレ콛꿴 レレ콛
我尝试过这种方法,包括所有历史悠久的韩国字符集,每种字符集都会产生类似的不成功结果。我也尝试通过Beautiful Soup解析并升级到UTF-8,这也失败了。
查看Emacs中的文件似乎很有希望,因为它显示了较低级别的文本编码。以下是同一文本样本:
\ 323 \ 313 \ 274 \ 374 \ 241 \ 357 \ 300 \ 212 \ 262 \ 351 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224 \ 262 \ 3 \ 51 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224
如何识别此文本编码并将其提升为UTF-8?
答案 0 :(得分:6)
emacs显示的所有八进制代码都小于254(或八进制中的\ 376),因此它看起来像是在Unicode范围内使用它自己的映射的那些旧的Unicode前字体之一。如果这是正确的,你只需要弄清楚它的用途是什么字体,找到它并自己做转换。
这是一种痛苦。很多年前,我为一些流行的Unicode前希腊字体做了类似的事情:http://litot.es/unicode-converter/(代码:https://github.com/seanredmond/Encoding-Converter)
答案 1 :(得分:1)
最后,它是关于找到正确的字符编码并使用iconv。
iconv --list
显示所有可用的编码。为&#34; KR&#34;揭示至少我的系统可以做CSEUCKR,CSISO2022KR,EUC-KR,ISO-2022-KR和ISO646-KR。根据维基百科,韩语也是BIG5HKSCS,CSKSC5636和KSC5636。尝试所有这些,直到出现合理的东西。
答案 2 :(得分:0)
即使该线程较旧,它仍然是一个问题,并且没有找到批量转换文件的方法(除了使用韩文版的Windows7),现在我正在使用Naver,它具有云服务像Google文档一样,如果您将那些奇怪编码的文件上传到那里,它会很好地处理它们。我只是编辑和复制文本,当我将其复制到其他地方时,它又恢复了标准。 不是我喜欢的解决方案,但是它可以节省一些路人。 您可以使用ID注册云帐户,即使您不居住在SKorea,也需要一些基本英语。