标签: python-3.x n-gram tfidfvectorizer term-document-matrix
我想为包含已经词量很大的单词的列表生成TFIDF向量或术语文档矩阵。
bigram_list = ['i need', 'answers please', 'thanks alot']
常规的TFIDFVectorizer有一个我不想使用的ngram_range参数,因为我已经生成了与传统bigram不同的bigram,因为它们没有重叠。