Python中的正则表达式口音

时间:2018-09-09 09:27:00

标签: python regex string

我正在处理葡萄牙语中带有以下重音的文本:â,á,à,ã。

我想使用正则表达式将字母仅保留在字符串中-避免使用数字和标点符号。为此,我尝试了以下方法:

string = ' dependencias, ve-lo saúde, não 12345'
re.sub(r'[^A-Za-z]', ' ', string)

这给我的是:

' dependencias   ve-lo sa de  n o      '

阅读正则表达式文档一段时间后,我尝试:

re.sub(r'[^A-Za-z-á-úÁ-Úâ-ûÀ-ù]', ' ', string)

哪个给我以下内容:

' dependencias  ve-lo saúde  não      '

有什么办法可以更有效地做到这一点?我找不到执行此操作的功能。此外,有没有办法没有那么多的空白呢?还有什么方法可以删除-

0 个答案:

没有答案