我正在执行文本分类任务。
我用火车文本数据构建了一个分类器,具有1700多个属性(单词)。但是,我的测试数据只有500多个属性(单词),当我在上述模型上运行测试数据时,它会抛出 Train and test set are not compatible
异常。如何转换与训练数据一致的测试数据属性?
答案 0 :(得分:0)
我的头顶上
在每个数据文件中计数行数,记下行数。
将训练文件和测试文件一起复制到一个文件中,应用StringToWordVector筛选器。
暂时删除所产生的巨大稀疏矩阵的上层〜75%(准确值可能是73.4542%左右)。
将与转换后的数据集的下25%(这些行代表原始测试集)相对应的其余记录导出到自己的.arff文件中。
现在撤消上层75%的删除操作。反转选择。删除对应于您的测试集的较低的25%。
运行分类器。
通过加载上面导出的新arff文件,将模型应用于测试集。