正如标题所说,我在培训数据上使用fit_transform
和CountVectorizer
..然后我只使用tranform
测试数据...这会给出我和仅在培训时使用fit
和仅在测试数据上使用tranform
一样吗?
答案 0 :(得分:5)
答案是是:
fit_transform
相当于fit
后跟transform
,但效率更高。 See documentation
fit
和fit_transform
都适合您的分类器到您的数据集。然后,您可以使用相同的分类器来转换任何其他数据集(在您的情况下是测试集)。
答案 1 :(得分:0)
如果您仅在培训上使用fit
而在测试数据上使用transform
,则无法获得正确的结果。
在训练数据上使用fit_transform
时,意味着机器正在学习特征空间中的参数,并且还可以转换(缩放)训练数据。另一方面,您应该只对测试数据使用transform
来根据从训练数据中学习的参数进行缩放。