从现有矩阵中获取特征向量

时间:2017-04-28 20:08:47

标签: python scikit-learn n-gram countvectorizer

如果我使用Scikit-learn配置一个CountVectorizer对象并将 n n 个句子(长度不一样)的矩阵传递给fit_transform函数,我可以举个例子获得n-gram表示 F 。像这样:

vectorizer = CountVectorizer(min_df = 1,
                             max_features = 2000,
                             ngram_range = (2, 2),
                             analyzer="word)

F = vectorizer.fit_transform(A)

这很有效。 F 现在将具有形状(2000, n ),因为我已将max_features设置为2000.

但是,让我说我再获得一个句子,并希望生成一个与 F 的特征对齐且具有相同长度(2000)的矢量..这是否可能,或者我是否需要保留原始矩阵 M ,将新句子添加到其中,然后重新生成所有功能?

1 个答案:

答案 0 :(得分:1)

如果我理解您的要求,可以使用vectorizer.transform(['New sentence here'])转换其他句子。