我正在处理葡萄牙语中带有以下重音的文本:â,á,à,ã。
我想使用正则表达式将字母仅保留在字符串中-避免使用数字和标点符号。为此,我尝试了以下方法:
string = ' dependencias, ve-lo saúde, não 12345'
re.sub(r'[^A-Za-z]', ' ', string)
这给我的是:
' dependencias ve-lo sa de n o '
阅读正则表达式文档一段时间后,我尝试:
re.sub(r'[^A-Za-z-á-úÁ-Úâ-ûÀ-ù]', ' ', string)
哪个给我以下内容:
' dependencias ve-lo saúde não '
有什么办法可以更有效地做到这一点?我找不到执行此操作的功能。此外,有没有办法没有那么多的空白呢?还有什么方法可以删除-
?