使用正则表达式计算文档中英语单词的正确方法是什么?
我尝试过:
words=re.findall('\w+', open('text.txt').read().lower())
len(words)
但似乎我遗漏了几个字(与gedit中的字数相比)。 我做得对吗?
非常感谢!
答案 0 :(得分:4)
使用\ w +将无法正确计算包含撇号或连字符的单词,例如“不能”将被计为2个单词。它还会计算数字(数字串); “12,345”和“6.7”将分别计为2个字(“12”和“345”,“6”和“7”)。
答案 1 :(得分:1)