英语收缩的正则表达式的解决方案不起作用

时间:2018-05-31 16:41:07

标签: python regex nltk

我目前正在摆弄正则表达式和NLTK(自然语言工具包)。我想将句子标记为单词和标点符号。像#"这样的收缩可以"","我' l"等也应该被认为是单词。我似乎找不到这样做的正则表达式。

\w+(\'\w+)?|[!-~]

为什么这个正则表达式不起作用?我只得到不好的结果:

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

对于这样的句子:

This is a test. Lulz another sentence. This can't be real.

我担心我还没有理解正则表达式?

编辑:

代码:

import re

re.findall("\w+('\w+)?|[!-~]", "This is a test. Lulz another sentence. This can't be real.")

0 个答案:

没有答案