Weka:如何转换与火车数据表一致的测试数据表?

时间:2019-03-06 03:40:13

标签: weka text-classification

我正在执行文本分类任务。

我用火车文本数据构建了一个分类器,具有1700多个属性(单词)。但是,我的测试数据只有500多个属性(单词),当我在上述模型上运行测试数据时,它会抛出 Train and test set are not compatible 异常。如何转换与训练数据一致的测试数据属性?

1 个答案:

答案 0 :(得分:0)

我的头顶上

在每个数据文件中计数行数,记下行数。

将训练文件和测试文件一起复制到一个文件中,应用StringToWordVector筛选器。

暂时删除所产生的巨大稀疏矩阵的上层〜75%(准确值可能是73.4542%左右)。

将与转换后的数据集的下25%(这些行代表原始测试集)相对应的其余记录导出到自己的.arff文件中。

现在撤消上层75%的删除操作。反转选择。删除对应于您的测试集的较低的25%。

运行分类器。

通过加载上面导出的新arff文件,将模型应用于测试集。