我正在尝试将Unicode字符串拆分为单词(简单化),如下所示:
print re.findall(r'(?u)\w+', "раз два три")
我期望看到的是:
['раз','два','три']
但我真正得到的是:
['\xd1', '\xd0', '\xd0', '\xd0', '\xd0\xb2\xd0', '\xd1', '\xd1', '\xd0']
我做错了什么?
编辑:
如果我在字符串前面使用u
:
print re.findall(r'(?u)\w+', u"раз два три")
我明白了:
[u'\u0440\u0430\u0437', u'\u0434\u0432\u0430', u'\u0442\u0440\u0438']
编辑2:
Aaaaand似乎我应该首先阅读文档:
print re.findall(r'(?u)\w+', u"раз два три")[0].encode('utf-8')
会给我:
раз
但是,为了确保这听起来像是接近它的正确方法吗?
答案 0 :(得分:6)
你实际上在unicode案例中得到了你期望的东西。你只是认为你不是因为你正在查看字符串的 reprs ,而不是打印未转义的值这一事实。 (这就是列表的显示方式。)
>>> words = [u'\u0440\u0430\u0437', u'\u0434\u0432\u0430', u'\u0442\u0440\u0438']
>>> for w in words:
... print w # This uses the terminal encoding -- _only_ utilize interactively
...
раз
два
три
>>> u'раз' == u'\u0440\u0430\u0437'
True
不要错过我关于打印这些unicode字符串的评论。通常,如果您要将它们发送到屏幕,文件,电线等,您需要手动将它们编码为正确的编码。当您使用print
时,Python会尝试利用终端的编码,但只有在有终端时才能这样做。因为您通常不知道是否存在,所以您应该只在交互式解释器中依赖它,并且总是以明确的方式编码为正确的编码。
在这种简单的分裂空白方法中,您可能根本不想使用正则表达式而只是使用unicode.split
方法。
>>> u"раз два три".split()
[u'\u0440\u0430\u0437', u'\u0434\u0432\u0430', u'\u0442\u0440\u0438']
你的top(bytestring)示例不起作用,因为re
基本上假设所有字节串都是ASCII语义,但是你的字符串不是。使用unicode字符串可以为您的字母和区域设置获得正确的语义。应尽可能使用unicode
而非str
来表示文字数据。