我正在整理一份中文拼音单词,有时字母ü出现在拼音中。在我意识到这一点之前,我使用了正则表达式([a-zA-Z]+[1-5]?)
来识别每个音节(拼音单词被写为罗马化语音,然后是音调标记,如nü3xing4
或ba4ba5
)。这符合我的意图。
然后我遇到了这样的情况:字母ü可能在那里,这是由a-zA-Z正则表达式处理的,所以我把它扩展到([a-züA-Z]+[1-5]?)
,但这似乎不是因某种原因工作。
源文件和单元测试都在顶部有# -*- coding: utf-8 -*-
,我正在排序的文件包含许多汉字,这些汉字似乎都得到了妥善处理。那我在这里错过了什么?