如何将以下某些字符串保持在一起?例如,
sentence = "?!a# .see"
tokens = nltk.word_tokenize(sentence)
tokens
给出
['!','?',' a','#',' .see&# 39;]而不是保持'?#a;'作为一个实体。
答案 0 :(得分:1)
似乎你想要做的是用空格分割字符串。所以只是调用split就足够了:
>>> sentence.split()
['?!a#', '.see']
但是,如果您真的想使用标记器,可以使用Regexp标记器:
>>> word_tokenizer = RegexpTokenizer('[\S]+')
>>> word_tokenizer.tokenize(sentence)
['?!a#', '.see']
'\S'
匹配任何非空格字符。