Question

使用正则表达式计算文档中英语单词的正确方法是什么？

我尝试过：

words=re.findall('\w+', open('text.txt').read().lower())
len(words)

但似乎我遗漏了几个字（与gedit中的字数相比）。我做得对吗？

非常感谢！

Answer 1

使用\ w +将无法正确计算包含撇号或连字符的单词，例如“不能”将被计为2个单词。它还会计算数字（数字串）; “12,345”和“6.7”将分别计为2个字（“12”和“345”，“6”和“7”）。