如何在Python中通过正则表达式对文本进行标记

时间:2014-06-04 19:50:41

标签: python tokenize corpus linguistics

有没有办法清除空格和圆点的文字,没有NLTK的逗号,尤其是正则表达式?

1 个答案:

答案 0 :(得分:1)

如果我理解了您的问题,您可以尝试使用此代码

import re

text = "Split.this,text in seven.separate,words"

myexp=re.compile(r'[\s.,]')

print myexp.split(text)

为您提供此输出

['Split', 'this', 'text', 'in', 'seven', 'separate', 'words']