特征向量:训练与测试集的权重计算

时间:2013-04-20 20:02:30

标签: classification feature-extraction document-classification

我正在使用支持向量机进行文本分类,但基本上我对测试集的特征向量计算感到困惑。

对于训练特征向量,我为每个训练数据采用TF-IDF向量,并使用TF-IDF值构建了一个特征矩阵[docs x terms]。

但是如何计算测试集的特征向量?我应该只使用训练集中的TF-IDF值进行计算吗?

例如:在特定单词“apple”的训练集中,doc频率为5。 对于测试集,我应该将值5用于“apple”吗?或者根据测试集重新计算TF-IDF?或者更确切地说,我在计算特征向量时采用了错误的方法吗?

提前致谢!

1 个答案:

答案 0 :(得分:5)

您应该使用训练集计算每个术语的IDF(逆文档频率)。然后,您应该为测试集中的文档使用相同的IDF。另一方面,TF取决于您尝试分类的具体文档,因此测试和训练集中的不同文档会有所不同。