我正在尝试使用训练数据集创建模型,并希望在测试数据集中标记记录。
我在网上找到的所有教程或帮助都只有使用一个数据集的交叉验证信息,即训练数据集。我找不到如何使用测试数据。我尝试将结果模型应用于测试集。但测试集似乎给出了不同的没有。属性比预处理后的训练集。这是一个文本分类问题。
最后我得到了一些这样的输出
18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]:
18.03.2013 01:47:00 SimpleExampleSet:
5275 examples,
366 regular attributes,
special attributes = {
confidence_1 = #367: confidence(1) (real/single_value)
confidence_5 = #368: confidence(5) (real/single_value)
confidence_2 = #369: confidence(2) (real/single_value)
confidence_4 = #370: confidence(4) (real/single_value)
prediction = #366: prediction(label) (nominal/single_value)/values=[1, 5, 2, 4]
}
但我想要的是我的所有标本都被贴上标签。
我的测试数据和训练数据似乎有所不同。属性,我在日志中看到了很多以下内容。
2013年3月18日上午1:46:41警告:内核模型:给定的示例集不包含名为“wireless”的常规属性。根据此特定属性,这可能会导致某些模型出现问题。
但是我们如何在文本分类中解决这样的问题,因为我们不知道没有。之前的属性和名称。
有人可以请一些指示。
答案 0 :(得分:0)
您可能使用Process Documents运算符来预处理训练集和测试集。重要的是,这两个运算符的设置完全相同。要“同步”字列表,即在两个字列表中考虑相同的字集,必须将用于训练的Process Documents运算符的wordlist(wor)输出连接到用于预处理的Process Documents运算符的相应输入端口。测试集。