我需要在训练样例上学习分类器并对测试示例进行分类。我的例子是长篇文章。我想使用一个特征集,其中第i个元素是我最常用的单词,例如,第一个特征是最常用的单词。
我的问题是,如果我使用字符串功能,那么我就不能使用我想要的分类器。如果我使用名义特征,我将第一个特征作为训练样例中最常用的词。对于测试示例,第一个特性是我的测试示例中最常用的字。所以这些功能是不同的,当我想使用分类器时,weka说它不匹配。
你有解决方案吗?
我希望能够使用每个文本中最常用的50个单词的功能集,并且训练示例的arff不应受测试示例的影响。此外,我希望能够使用多种分类器(如smo,naive-bayes,j48等)。
谢谢!
答案 0 :(得分:0)
对于任何预处理任务,您应该使用'FilteredClassifier'。因此,仅基于训练集确定实际预处理操作,然后将其应用于测试数据。
例如:如果您通过这种方式进行离散化,实际的二进制位将仅取决于训练数据中的属性值。然而,使用这些箱的离散化将应用于测试数据。