如果我只是' vectorizer.transform(短语)'会发生什么?不合身吗?

时间:2018-02-24 17:24:31

标签: transform vectorization sentiment-analysis text-analysis countvectorizer

当涉及到对短语进行矢量化并将它们放入矩阵形式时,有些事情让我感到困惑。

导入CountVectorizer或TfidfVectorizer时,

.fit&的区别是什么? .transform& .fit_transform的功能?

我知道' .fit'将学习ngrams,分为ngrams。

' .transform'将它放入短语x ngram矩阵。

' .fit_transform'作为.fit&的组合工作。 .transform

如果是这种情况,如果我只是vectorize.transform(短语)而不适合它会发生什么?

我看到这个教程设置适合&转换列车数据,但对于测试数据,它只会转换'预测的操作。

先谢谢大家。

1 个答案:

答案 0 :(得分:0)

亮点:

  1. .transform(X) =将字典功能转换为2D要素矩阵。
  2. .fit_transform(X) =了解功能名称+ .transform(X)
  3. 回答你的问题:

    只有在使用.transform了解功能后,您才能.fit。直接应用.transform将忽略.fit中没有遇到的任何功能,因此不会输出任何分类结果。

    参考文献: