如果我使用Scikit-learn配置一个CountVectorizer对象并将 n 个 n 个句子(长度不一样)的矩阵传递给fit_transform函数,我可以举个例子获得n-gram表示 F 。像这样:
vectorizer = CountVectorizer(min_df = 1,
max_features = 2000,
ngram_range = (2, 2),
analyzer="word)
F = vectorizer.fit_transform(A)
这很有效。 F 现在将具有形状(2000, n ),因为我已将max_features设置为2000.
但是,让我说我再获得一个句子,并希望生成一个与 F 的特征对齐且具有相同长度(2000)的矢量..这是否可能,或者我是否需要保留原始矩阵 M ,将新句子添加到其中,然后重新生成所有功能?
答案 0 :(得分:1)
如果我理解您的要求,可以使用vectorizer.transform(['New sentence here'])
转换其他句子。