Question

我一直在努力编码一段时间，因为我在Python中用sqlite3生成多语言数据库。到目前为止，我已经解决了所有问题，感谢Google和Stack Overflow上的文章。我遇到了俄语，斯洛文尼亚语，波兰语，西班牙语，法语等问题......但它已全部解决了，从这个我无法解决的文件中得知。

我以为我在这个网站上找到了一个可能的解决方案：http://www.smashingmagazine.com/2012/06/06/all-about-unicode-utf8-character-sets/，我甚至找到了一个解码器，这让我非常接近解决问题。但它只产生了部分可以理解的俄语...（我确信它在其他情况下可以提供帮助：http://2cyr.com/decode/?lang=fr并且它也存在于英语中。）

但是这最后一个文件将是我的结束。这是一个主要问题：我知道它是俄语，因为给我的语言学家建立了它，并且知道它是用俄语写的。但是，文件本身看起来像这样：

£ËÁÀÝÅÅ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÇÏ    UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÊ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍ UNK £ËÁÀÝÉÊ UNKA
£ËÁÀÝÅÍÕ    UNK £ËÁÀÝÉÊ UNKA

根据我的shell，它以utf-8编码。因此，我一直试图解码utf-8并将其编码为我能找到的所有俄语编码（ISO-8859-5，koi8_r，koi8_u，cp1252，cp1251 ......）。它从来没有奏效。我也尝试在所有这些编码中保存文件并以相反的方式解码，但没有太大成功......

它必须进入数据库（sqlite），我知道所需的编码是utf-8。我之前提到的俄罗斯文件是＆＃34;正确＆＃34;写的（用西里尔文写的），我只需要弄清楚要使用哪种编码。但在这里，我觉得我已经尝试了所有的东西，我只是没有得到任何结果...

我真的想知道是否可以解码这样的文件，因为它不是开始时的西里尔语。

欢迎提出任何建议：）

Answer 1

首要问题 - 文本不是UTF-8，而是KOI8R。因此，如果你需要通过Python解码，你可以参考这个答案 - string encode / decode - 它可能会给你一些线索。

我已经解码了你指定的文字 - 享受：

ёкающее UNK ёкающий UNKA
ёкающего    UNK ёкающий UNKA
ёкающей UNK ёкающий UNKA
ёкающем UNK ёкающий UNKA
ёкающему    UNK ёкающий UNKA