标签: scikit-learn tf-idf countvectorizer
向CountVectorizer提供一组词汇时,这意味着我恰好需要该组词汇。可能有一组由多个单词组成的词汇表吗?例如
my_vocab=['my name', 'go to']
代替
my_vocab=['my', 'name', 'go', 'to']
换句话说,我希望特征向量包含某些单词短语而不是孤立的单词