我目前正在摆弄正则表达式和NLTK(自然语言工具包)。我想将句子标记为单词和标点符号。像#"这样的收缩可以"","我' l"等也应该被认为是单词。我似乎找不到这样做的正则表达式。
\w+(\'\w+)?|[!-~]
为什么这个正则表达式不起作用?我只得到不好的结果:
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']
对于这样的句子:
This is a test. Lulz another sentence. This can't be real.
我担心我还没有理解正则表达式?
编辑:
代码:
import re
re.findall("\w+('\w+)?|[!-~]", "This is a test. Lulz another sentence. This can't be real.")