为看不见的单词添加功能

时间:2016-12-16 07:19:15

标签: matrix scikit-learn

我正在使用sklearn countvectorizer来构建我的术语 - 文档矩阵

然而,

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
corpus = ['this is jummy speaking now']
X = vectorizer.fit_transform(corpus)
c = vectorizer.transform(['lol 123']).toarray()

X会是5个单词的术语文档矩阵。但是,我希望矩阵有一个未知的列,也就是6个单词的术语文档矩阵。如果找到一个新的看不见的单词,我希望它成为未知列的一部分。例如(lol和123)不在语料库中。它应该是未知专栏的一部分。

0 个答案:

没有答案