我想用regex tokenizer
标记下面的句子MOST INTERESTED IN NUT BUTTERS
当我将tokenizer定义为
时tokenizer = RegexpTokenizer(r'\w+')
我输出为
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
我想要的输出是
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
我希望NUT BUTTER成为一个元素 我不明白使用什么正则表达式或\ w +
答案 0 :(得分:0)
请尝试split()
。
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
答案 1 :(得分:0)
如果你想使用正则表达式解决方案,你必须创建一个包含空格的单词列表,这些单词必须作为一个单词提取出来并构建你的正则表达式:
word space1|word space2|word space3|...|word spaceN|\w+
为你的例子它变成:
NUT BUTTERS|\w+