为什么我的正则表达不会ü?

时间:2013-11-23 01:49:27

标签: python regex

我正在整理一份中文拼音单词,有时字母ü出现在拼音中。在我意识到这一点之前,我使用了正则表达式([a-zA-Z]+[1-5]?)来识别每个音节(拼音单词被写为罗马化语音,然后是音调标记,如nü3xing4ba4ba5)。这符合我的意图。

然后我遇到了这样的情况:字母ü可能在那里,这是由a-zA-Z正则表达式处理的,所以我把它扩展到([a-züA-Z]+[1-5]?),但这似乎不是因某种原因工作。

源文件和单元测试都在顶部有# -*- coding: utf-8 -*-,我正在排序的文件包含许多汉字,这些汉字似乎都得到了妥善处理。那我在这里错过了什么?

0 个答案:

没有答案