标签: python regex punctuation
我是RE的新手,我正在试图找出如何在给定输入字符串的情况下返回字符串中所有唯一单词的计数。我一直遇到的问题是标点符号。我不希望我的代码分别处理像“狗”和“狗”这样的词。有没有办法避免这种情况?
答案 0 :(得分:2)
在正则表达式中使用\w+仅匹配字母,数字和下划线。使用set排除重复项:
\w+
set
len(set(re.findall(r'\w+', text, re.UNICODE)))