如何使用RegexpTokenizer删除'in strings

时间:2017-02-05 20:22:03

标签: python nltk tokenize

from nltk.tokenize import RegexpTokenizer
text="That's some text, you know!"
tokens=[]
tokenizer = RegexpTokenizer(r'\w+')
tokens+=tokenizer.tokenize(text.lower())

目前返回:text = ['that', 's', 'some', 'text', 'you', 'know']

我需要它返回:目前返回:text = ['thats', 'some', 'text', 'you', 'know'](“那个”是一个单词)

1 个答案:

答案 0 :(得分:3)

有两种解决方案。您要使用以下方法预处理文本变量:

text = text.replace("'", "")

或者你想匹配"那"作为这个修改的单个词:

tokenizer = RegexpTokenizer(r'[\w\']+')