如何在python中使用nltk tokenize将某些实体保持为一个单词?

时间:2013-12-01 00:09:13

标签: python nltk

如何将以下某些字符串保持在一起?例如,

sentence = "?!a# .see"
tokens = nltk.word_tokenize(sentence)  
tokens 

给出

['!','?',' a','#',' .see&# 39;]而不是保持'?#a;'作为一个实体。

1 个答案:

答案 0 :(得分:1)

似乎你想要做的是用空格分割字符串。所以只是调用split就足够了:

>>> sentence.split()
['?!a#', '.see']

但是,如果您真的想使用标记器,可以使用Regexp标记器:

>>> word_tokenizer = RegexpTokenizer('[\S]+') 
>>> word_tokenizer.tokenize(sentence)
['?!a#', '.see']

'\S'匹配任何非空格字符。