应用错误收集

我正在整理一份中文拼音单词，有时字母ü出现在拼音中。在我意识到这一点之前，我使用了正则表达式([a-zA-Z]+[1-5]?)来识别每个音节（拼音单词被写为罗马化语音，然后是音调标记，如nü3xing4或ba4ba5）。这符合我的意图。

然后我遇到了这样的情况：字母ü可能在那里，这是由a-zA-Z正则表达式处理的，所以我把它扩展到([a-züA-Z]+[1-5]?)，但这似乎不是因某种原因工作。

源文件和单元测试都在顶部有# -*- coding: utf-8 -*-，我正在排序的文件包含许多汉字，这些汉字似乎都得到了妥善处理。那我在这里错过了什么？