Question

from nltk.tokenize import RegexpTokenizer
text="That's some text, you know!"
tokens=[]
tokenizer = RegexpTokenizer(r'\w+')
tokens+=tokenizer.tokenize(text.lower())

目前返回：text = ['that', 's', 'some', 'text', 'you', 'know']

我需要它返回：目前返回：text = ['thats', 'some', 'text', 'you', 'know']（“那个”是一个单词）

Answer 1

有两种解决方案。您要使用以下方法预处理文本变量：

text = text.replace("'", "")

或者你想匹配＆＃34;那＆＃34;作为这个修改的单个词：

tokenizer = RegexpTokenizer(r'[\w\']+')

如何使用RegexpTokenizer删除'in strings

1 个答案: