这是捷克的罕见字符编码吗?

时间:2017-10-03 07:16:33

标签: character-encoding

我最近在我想要自动处理的多个文件中下载了数十亿字节的数据(文本)。但是,文本的字符集或实际编码是错误的。问题是Notepad ++,SublimeText 3或Word等文本编辑器将其简单地检测为ANSI。我已经尝试了所有可用的字符集,但是仍有部分文件存在问题。

默认ANSI编码(错误的特殊字符):

  

OBJEVUJESEZELENÁKNÍ®KA

     

FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma   nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrľ   paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se   nezajímalonicjininhoneľosvézablácenéklátícísenohy。 Zatímvąak   napínáuąi,abymuneuúloanislovíčko。

     

»Taktodálnepůjde,milápaní,«křičíhokynářajehotlustýzátylek   jerudýzlostí。 »Jednozboľínezaplatíteuľzachcetenovénadluh。   Copaksimysííte,ľekradu?«

ISO 8859-2编码(错误的引号):

  

OBJEVUJESEZELENÁKNÍŽKA

     

FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma   nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrž   paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se   nezajímalonicjininhonežosvézablácenéklátícísenohy。 Zatímvšak   napínáuši,abymuneušloanislovíčko。

     

ťTaktodálnepůjde,milápaní,Ťkřičíhokynářajehotlustýzátylek   jerudýzlostí。 ťJednozbožínezaplatíteužzaschtetenovénadluh。   Copaksimyslíte,žekradu?Ť

期望的输出:

  

OBJEVUJESEZELENÁKNÍŽKA

     

FrantíkSeverýnsedínaprázdnýchbednáchodocukru,pohupujebosýma   nohamaanaslouchákázánípáněBočanovu。 Kázánínepatříjemu,nýbrž   paníBílkové,kterástojípředpultem。 Frantíksetváří,jako by se   nezajímalonicjininhonežosvézablácenéklátícísenohy。 Zatímvšak   napínáuši,abymuneušloanislovíčko。

     

»Taktodálnepůjde,milápaní,«křičíhokynářajehotlustýzátylek   jerudýzlostí。 »Jednozbožínezaplatíteužzaschtetenovénadluh。   Copaksimysííte,žekradu?«

这是什么字符编码?

阅读this之后我怀疑它可能是旧的/遗留的,但我不知道如何修复它,因为我不知道任何支持它的软件。另一个选择是它可能只是腐败,因为所有的qutation标记似乎编码为ť/Ť。我该如何验证?

编辑:十六进制信息:

KNͮKA = 4B 4E CD AE 4B 41
»Tak to dál nepůjde = BB 54 61 6B 20 74 6F 20 64 E1 6C 20 6E 65 70 F9 6A 64 65
co má chu» vstát = 63 6F 20 6D E1 20 63 68 75 BB 20 76 73 74 E1 74

1 个答案:

答案 0 :(得分:1)

使用UTF-8,而不是ascii,而不是iso -...,而不是latin ....

latin1接近,但错过了ř

你说这是"已下载"。你能告诉我们有关人物的十六进制吗?

»Žřč转换为十六进制:
UTF-8中的C2BB C5BD C599 C48D - 唯一可以处理所有字符的人 latin1 BB 8E 3F 3F cp1250中的BB 8E F8 3F
latin2 3F AE F8 E8 注意:3F是?,意味着转换问题。

latin2中的

十六进制BBť