如何使用相同的StringToWordVector过滤器来训练数据和看不见的数据

时间:2014-11-02 05:05:50

标签: weka libsvm document-classification

我已经为weka使用了LibSVM包装器,并成功构建了一个用于新闻分类(体育和商业)的分类器。我使用交叉验证方法对其进行了评估,并且接受了准确性。所以现在我需要使用该模型对新的新闻文章进行分类。在将它分配给分类器之前,我需要使用weka中的StringToWordVector过滤器将其传递给特征向量。我怎么需要使用我用于训练数据的相同过滤器。我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:1)

我们可以使用下面给出的批量过滤选项,

 StringToWordVector filter = new StringToWordVector(); //initialise the filter
 //set filter options
 filter.setInputFormat(trainingData); //set input format to filter using training data
 Instances trainingDataFiltered = Filter.useFilter(trainingData, filter); // filter training data
 Instances testDataFiltered = Filter.useFilter(trainingData, filter); // filter test data