我一直在努力编码一段时间,因为我在Python中用sqlite3生成多语言数据库。 到目前为止,我已经解决了所有问题,感谢Google和Stack Overflow上的文章。 我遇到了俄语,斯洛文尼亚语,波兰语,西班牙语,法语等问题......但它已全部解决了,从这个我无法解决的文件中得知。
我以为我在这个网站上找到了一个可能的解决方案:http://www.smashingmagazine.com/2012/06/06/all-about-unicode-utf8-character-sets/,我甚至找到了一个解码器,这让我非常接近解决问题。但它只产生了部分可以理解的俄语...(我确信它在其他情况下可以提供帮助:http://2cyr.com/decode/?lang=fr并且它也存在于英语中。)
但是这最后一个文件将是我的结束。这是一个主要问题:我知道它是俄语,因为给我的语言学家建立了它,并且知道它是用俄语写的。但是,文件本身看起来像这样:
£ËÁÀÝÅÅ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÇÏ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÊ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍÕ UNK £ËÁÀÝÉÊ UNKA
根据我的shell,它以utf-8编码。因此,我一直试图解码utf-8并将其编码为我能找到的所有俄语编码(ISO-8859-5,koi8_r,koi8_u,cp1252,cp1251 ......)。它从来没有奏效。我也尝试在所有这些编码中保存文件并以相反的方式解码,但没有太大成功......
它必须进入数据库(sqlite),我知道所需的编码是utf-8。 我之前提到的俄罗斯文件是"正确"写的(用西里尔文写的),我只需要弄清楚要使用哪种编码。但在这里,我觉得我已经尝试了所有的东西,我只是没有得到任何结果...
我真的想知道是否可以解码这样的文件,因为它不是开始时的西里尔语。
欢迎提出任何建议:)
答案 0 :(得分:0)
首要问题 - 文本不是UTF-8,而是KOI8R。 因此,如果你需要通过Python解码,你可以参考这个答案 - string encode / decode - 它可能会给你一些线索。
我已经解码了你指定的文字 - 享受:
ёкающее UNK ёкающий UNKA
ёкающего UNK ёкающий UNKA
ёкающей UNK ёкающий UNKA
ёкающем UNK ёкающий UNKA
ёкающему UNK ёкающий UNKA