Question

如何将以下某些字符串保持在一起？例如，

sentence = "?!a# .see"
tokens = nltk.word_tokenize(sentence)  
tokens

给出

[＆＃39;！＆＃39;，＆＃39;？＆＃39;，＆＃39; a＆＃39;，＆＃39;＃＆＃39;，＆＃39; .see＆＃ 39;]而不是保持＆＃39;？＃a;＆＃39;作为一个实体。

Answer 1

似乎你想要做的是用空格分割字符串。所以只是调用split就足够了：

>>> sentence.split()
['?!a#', '.see']

但是，如果您真的想使用标记器，可以使用Regexp标记器：

>>> word_tokenizer = RegexpTokenizer('[\S]+') 
>>> word_tokenizer.tokenize(sentence)
['?!a#', '.see']

'\S'匹配任何非空格字符。