matrix - 为看不见的单词添加功能

我正在使用sklearn countvectorizer来构建我的术语 - 文档矩阵

然而，

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
corpus = ['this is jummy speaking now']
X = vectorizer.fit_transform(corpus)
c = vectorizer.transform(['lol 123']).toarray()

X会是5个单词的术语文档矩阵。但是，我希望矩阵有一个未知的列，也就是6个单词的术语文档矩阵。如果找到一个新的看不见的单词，我希望它成为未知列的一部分。例如（lol和123）不在语料库中。它应该是未知专栏的一部分。

为看不见的单词添加功能

0 个答案: