当涉及到对短语进行矢量化并将它们放入矩阵形式时,有些事情让我感到困惑。
导入CountVectorizer或TfidfVectorizer时,
.fit&的区别是什么? .transform& .fit_transform的功能?
我知道' .fit'将学习ngrams,分为ngrams。
' .transform'将它放入短语x ngram矩阵。
' .fit_transform'作为.fit&的组合工作。 .transform
如果是这种情况,如果我只是vectorize.transform(短语)而不适合它会发生什么?
我看到这个教程设置适合&转换列车数据,但对于测试数据,它只会转换'预测的操作。
先谢谢大家。
答案 0 :(得分:0)
亮点:
.transform(X)
=将字典功能转换为2D要素矩阵。.fit_transform(X)
=了解功能名称+ .transform(X)
回答你的问题:
只有在使用.transform
了解功能后,您才能.fit
。直接应用.transform
将忽略.fit
中没有遇到的任何功能,因此不会输出任何分类结果。
参考文献:
.transform(X)
将所有dict X
(将feature_name
映射到feature_values
)转换为二维要素矩阵。 2D矩阵是向分类器输入条目的正确方法(根据向量数学)。.fit_transform(X,y=None)
,了解输入dict X
中的要素名称列表(学习过程的术语称为fitting
)和第二个,适用前一段中所述的transform
程序。