SVM如何计算文档分类中测试文档的tf-df?

时间:2013-08-13 10:00:21

标签: machine-learning svm feature-extraction tf-idf feature-selection

在我的SVM中,我在文档上使用tf-idf进行特征提取。这些tf-idf是根据整个培训文件计算的。

现在当我得到一个我想要分类的测试文档时,我该如何为它生成矢量?

我在计算tf-idf之前使用了词干。我也可以在测试文档上执行它。我有列车文件的count_of_words。

我是否应该增加列车文件count_of_words中用于计算测试文件的tf-idf的单词数量,还是应该直接使用它?

1 个答案:

答案 0 :(得分:3)

以与训练期间相同的方式计算它们,但是:使用基于训练文档的idf和来自测试文档的tf。如果您有许多新文档,只需及时更新训练数据并重新训练您的模型。