当训练集文档术语矩阵与测试集的术语不同时,如何对文本文档进行分类?

时间:2019-04-10 10:20:14

标签: r svm

我正在尝试使用构建的SVM模型对新文档集进行分类。但是,e1071抛出错误,表明测试数据与模型不匹配。我了解它期望新文档集中具有相同的功能集(文档术语矩阵中的术语)。但是通常,新文档集比经过训练的模型中的术语(列名)具有更多和不同的功能。

我尝试将训练过的模型中的术语包含在新集合的文档术语矩阵中。但仍然对我不起作用。我检查了e1071代码,并据此(见下文),在经过训练的模型和一组新文档中,我应该具有完全相同的功能。

if (ncol(object$SV) != ncol(newdata))
        stop ("test data does not match model !")

我该如何解决这个问题?感谢任何建议。

0 个答案:

没有答案