我最近在我想要自动处理的多个文件中下载了数十亿字节的数据(文本)。但是,文本的字符集或实际编码是错误的。问题是Notepad ++,SublimeText 3或Word等文本编辑器将其简单地检测为ANSI。我已经尝试了所有可用的字符集,但是仍有部分文件存在问题。
默认ANSI编码(错误的特殊字符):
OBJEVUJESEZELENÁKNÍ®KA
FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrľ paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se nezajímalonicjininhoneľosvézablácenéklátícísenohy。 Zatímvąak napínáuąi,abymuneuúloanislovíčko。
»Taktodálnepůjde,milápaní,«křičíhokynářajehotlustýzátylek jerudýzlostí。 »Jednozboľínezaplatíteuľzachcetenovénadluh。 Copaksimysííte,ľekradu?«
ISO 8859-2编码(错误的引号):
OBJEVUJESEZELENÁKNÍŽKA
FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrž paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se nezajímalonicjininhonežosvézablácenéklátícísenohy。 Zatímvšak napínáuši,abymuneušloanislovíčko。
ťTaktodálnepůjde,milápaní,Ťkřičíhokynářajehotlustýzátylek jerudýzlostí。 ťJednozbožínezaplatíteužzaschtetenovénadluh。 Copaksimyslíte,žekradu?Ť
期望的输出:
OBJEVUJESEZELENÁKNÍŽKA
FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrž paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se nezajímalonicjininhonežosvézablácenéklátícísenohy。 Zatímvšak napínáuši,abymuneušloanislovíčko。
»Taktodálnepůjde,milápaní,«křičíhokynářajehotlustýzátylek jerudýzlostí。 »Jednozbožínezaplatíteužzaschtetenovénadluh。 Copaksimysííte,žekradu?«
这是什么字符编码?
阅读this之后我怀疑它可能是旧的/遗留的,但我不知道如何修复它,因为我不知道任何支持它的软件。另一个选择是它可能只是腐败,因为所有的qutation标记似乎编码为ť/Ť。我该如何验证?
编辑:十六进制信息:
KNͮKA = 4B 4E CD AE 4B 41
»Tak to dál nepůjde = BB 54 61 6B 20 74 6F 20 64 E1 6C 20 6E 65 70 F9 6A 64 65
co má chu» vstát = 63 6F 20 6D E1 20 63 68 75 BB 20 76 73 74 E1 74
答案 0 :(得分:1)
使用UTF-8,而不是ascii,而不是iso -...,而不是latin ....
latin1接近,但错过了ř
。
你说这是"已下载"。你能告诉我们有关人物的十六进制吗?
»Žřč
转换为十六进制:
UTF-8中的C2BB C5BD C599 C48D
- 唯一可以处理所有字符的人
latin1 BB 8E 3F 3F
cp1250中的BB 8E F8 3F
latin2 3F AE F8 E8
注意:3F是?
,意味着转换问题。
十六进制BB
为ť
。