Word使用正则表达式在Python中计数

时间:2011-05-16 13:12:42

标签: python regex count word

使用正则表达式计算文档中英语单词的正确方法是什么?

我尝试过:

words=re.findall('\w+', open('text.txt').read().lower())
len(words)

但似乎我遗漏了几个字(与gedit中的字数相比)。 我做得对吗?

非常感谢!

2 个答案:

答案 0 :(得分:4)

使用\ w +将无法正确计算包含撇号或连字符的单词,例如“不能”将被计为2个单词。它还会计算数字(数字串); “12,345”和“6.7”将分别计为2个字(“12”和“345”,“6”和“7”)。

答案 1 :(得分:1)