from nltk.tokenize import RegexpTokenizer
text="That's some text, you know!"
tokens=[]
tokenizer = RegexpTokenizer(r'\w+')
tokens+=tokenizer.tokenize(text.lower())
目前返回:text = ['that', 's', 'some', 'text', 'you', 'know']
我需要它返回:目前返回:text = ['thats', 'some', 'text', 'you', 'know']
(“那个”是一个单词)
答案 0 :(得分:3)
有两种解决方案。您要使用以下方法预处理文本变量:
text = text.replace("'", "")
或者你想匹配"那"作为这个修改的单个词:
tokenizer = RegexpTokenizer(r'[\w\']+')