我正在使用sklearn countvectorizer来构建我的术语 - 文档矩阵
然而,
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
corpus = ['this is jummy speaking now']
X = vectorizer.fit_transform(corpus)
c = vectorizer.transform(['lol 123']).toarray()
X会是5个单词的术语文档矩阵。但是,我希望矩阵有一个未知的列,也就是6个单词的术语文档矩阵。如果找到一个新的看不见的单词,我希望它成为未知列的一部分。例如(lol和123)不在语料库中。它应该是未知专栏的一部分。