Question

我正在尝试使用python字符串的encode方法返回字符的unicode转义码，如下所示：

>>> print( 'ф'.encode('unicode_escape').decode('utf8') )
\u0444

这适用于非ascii字符，但对于ascii字符，它只返回ascii字符本身：

>>> print( 'f'.encode('unicode_escape').decode('utf8') )
f

所需的输出为\u0066。此脚本用于教学目的。

如何获取所有字符的unicode十六进制代码？

Answer 1

您的要求有点奇怪。在Python中，通常我们只使用Error: Cannot find module '/home/ubuntu/www/middleware/../db/models/Auth' at Function.Module._resolveFilename (module.js:469:15) at Function.Module._load (module.js:417:25) at Module.require (module.js:497:17) at require (internal/module.js:20:19) at Object.<anonymous> (/home/ubuntu/www/middleware/authenticate.js:1:74) at Module._compile (module.js:570:32) at Object.Module._extensions..js (module.js:579:10) at Module.load (module.js:487:32) at tryModuleLoad (module.js:446:12) at Function.Module._load (module.js:438:3) at Module.require (module.js:497:17) at require (internal/module.js:20:19) at Object.<anonymous> (/home/ubuntu/www/routes/friendR.js:4:24) at Module._compile (module.js:570:32) at Object.Module._extensions..js (module.js:579:10) at Module.load (module.js:487:32)代替。这里不需要编码/解码。

ord

Answer 2

您必须手动执行此操作;如果你假设你的所有输入都在Unicode BMP中，那么一个简单的正则表达式可能会最快;这会用\uhhhh转义符替换每个字符：

import re

def unicode_escaped(s, _pattern=re.compile(r'[\x00-\uffff]')):
    return _pattern.sub(lambda m: '\\u{:04x}'.format(
        ord(m.group(0))), s)

我已明确将模式限制在BMP中，以优雅地处理非BMP点。

演示：

>>> print(unicode_escaped('foo bar ф'))
\u0066\u006f\u006f\u0020\u0062\u0061\u0072\u0020\u0444

如何让python＆＃39; .encode（＆＃39; unicode_escape＆＃39;）返回ascii的转义码？

2 个答案: