如何让python' .encode(' unicode_escape')返回ascii的转义码?

时间:2017-02-06 21:19:08

标签: python unicode unicode-escapes

我正在尝试使用python字符串的encode方法返回字符的unicode转义码,如下所示:

>>> print( 'ф'.encode('unicode_escape').decode('utf8') )
\u0444

这适用于非ascii字符,但对于ascii字符,它只返回ascii字符本身:

>>> print( 'f'.encode('unicode_escape').decode('utf8') )
f

所需的输出为\u0066。此脚本用于教学目的。

如何获取所有字符的unicode十六进制代码?

2 个答案:

答案 0 :(得分:2)

您的要求有点奇怪。在Python中,通常我们只使用Error: Cannot find module '/home/ubuntu/www/middleware/../db/models/Auth' at Function.Module._resolveFilename (module.js:469:15) at Function.Module._load (module.js:417:25) at Module.require (module.js:497:17) at require (internal/module.js:20:19) at Object.<anonymous> (/home/ubuntu/www/middleware/authenticate.js:1:74) at Module._compile (module.js:570:32) at Object.Module._extensions..js (module.js:579:10) at Module.load (module.js:487:32) at tryModuleLoad (module.js:446:12) at Function.Module._load (module.js:438:3) at Module.require (module.js:497:17) at require (internal/module.js:20:19) at Object.<anonymous> (/home/ubuntu/www/routes/friendR.js:4:24) at Module._compile (module.js:570:32) at Object.Module._extensions..js (module.js:579:10) at Module.load (module.js:487:32) 代替。这里不需要编码/解码。

ord

答案 1 :(得分:1)

您必须手动执行此操作;如果你假设你的所有输入都在Unicode BMP中,那么一个简单的正则表达式可能会最快;这会用\uhhhh转义符替换每个字符:

import re

def unicode_escaped(s, _pattern=re.compile(r'[\x00-\uffff]')):
    return _pattern.sub(lambda m: '\\u{:04x}'.format(
        ord(m.group(0))), s)

我已明确将模式限制在BMP中,以优雅地处理非BMP点。

演示:

>>> print(unicode_escaped('foo bar ф'))
\u0066\u006f\u006f\u0020\u0062\u0061\u0072\u0020\u0444