如何匹配作为字母a
的2个标记的单词部分和有效单词。
例如;
我目前正在浏览一个大型数据集,并希望在我的机器学习分类器中删除不必要的字母,但字母a
在我的2个单词中算作一个单词。
如何在没有正则表达式的a的情况下返回单词?
答案 0 :(得分:1)
此正则表达式捕获每个a
,an
,后跟一个空格。它还检查a
&前面是否没有字母。 an
或者如果它是字符串中的第一个字母。
(?:[^A-z]|^)(a|A|an|An)\s
这基本上应涵盖每个语法正确的文本。
答案 1 :(得分:0)
这个人会这样做,使用积极的lookbehind:
(?<=a\s)\w+
答案 2 :(得分:0)
使用regex
替换a
。结果将是一个没有a
字的字符串:
import re
s = 'a dog'
removed_a = re.sub(r'\ba \b', '', s)
请注意,\b
符合字边界。所以上面只匹配单词a
并替换它。
答案 3 :(得分:0)