我对tf-idf概念有些困惑。
在训练数据中,我们使用 fit_transform 制作数据链的词汇,并将数据转换为权重向量
,当我们想使用数据测试进行测试时,我们使用 transform 将数据测试转换为权重向量。我们使用 transform (转换)功能是因为我们已经有了vocab,并且想要将数据测试转换为基于vocab数据序列的权向量?
我的问题是:当我们使用 transform 进行数据测试时,数据链的权重是否也在变化?还是TfidfVectorizer通过数据训练+数据测试重新计算重量以获得新的重量?还是TfidfVectorizer仅仅根据数据链词汇来计算数据测试权重,而无需使用数据链来获取权重?
我一直在寻找这个问题,但是一些消息来源没有给我对此的完整解释。希望你们能帮助我回答这个问题。我非常感谢。