应用错误收集

时间：2019-03-06 03:40:13

标签： weka text-classification

我正在执行文本分类任务。

我用火车文本数据构建了一个分类器，具有1700多个属性（单词）。但是，我的测试数据只有500多个属性（单词），当我在上述模型上运行测试数据时，它会抛出 Train and test set are not compatible 异常。如何转换与训练数据一致的测试数据属性？

答案 0 :(得分：0)

我的头顶上

在每个数据文件中计数行数，记下行数。

将训练文件和测试文件一起复制到一个文件中，应用StringToWordVector筛选器。

暂时删除所产生的巨大稀疏矩阵的上层〜75％（准确值可能是73.4542％左右）。

将与转换后的数据集的下25％（这些行代表原始测试集）相对应的其余记录导出到自己的.arff文件中。

现在撤消上层75％的删除操作。反转选择。删除对应于您的测试集的较低的25％。

运行分类器。

通过加载上面导出的新arff文件，将模型应用于测试集。