未知编码

时间:2012-02-26 22:59:59

标签: unicode encoding utf-8 character-encoding

有谁知道那是什么类型的编码?

\u042e\u043b\u0438\u044f

我唯一知道的是这是一个非拉丁字母的名字

4 个答案:

答案 0 :(得分:3)

Unicode中的“Юлия”(Julia)。

答案 1 :(得分:1)

\u通常用于表示数字Unicode代码点引用,在这种情况下,您正在处理 Unicode 。您可以查找其代码表,以获得有问题的代码点的精确定义。官方网站上的code charts为您提供了已定义范围的概述,而this website则允许您按值进行搜索。

答案 2 :(得分:1)

它看起来像西里尔字母块中的UTF-16字符。

U+042E CYRILLIC CAPITAL LETTER YU
U+043B CYRILLIC SMALL LETTER EL
U+0438 CYRILLIC SMALL LETTER I
U+044F CYRILLIC SMALL LETTER YA

答案 3 :(得分:0)

  

你知道如何用python获取它吗?

原则上unicode-escape

>>> '\\u042e\\u043b\\u0438\\u044f'.decode('unicode-escape')
u'\u042e\u043b\u0438\u044f'
>>> print _
Юлия   # dependent on your terminal supporting Unicode

但是,这只会解码\u个序列,这很可能不是你真正想做的。

我们\u有不同语言的很多作为字符串文字编码,包括JavaScript和Python。关于其他\ - 转义序列如何工作,以及可能围绕UTF-16代理人的处理,每个规则都略有不同。所以你真的需要知道你正在处理的确切语言,并使用为该语言设计的解析器。

JSON通常是一个很好的猜测。