Rapidminer虚拟编码不匹配

时间:2016-03-17 09:46:01

标签: neural-network rapidminer dummy-variable

我试图通过在trainData上训练神经网络然后在testData上进行测试,就像任何人一样。但是,数据需要对一些标称特征进行数字编码。当我这样做时,它会训练神经网络,但在将其应用于测试数据时会失败(因为虚拟编码不匹配,我会应用完全相同的转换/块)。

*错误消息在以下行中:v47 = H在testData中不存在

我检查过,testData确实的值为' H'在v47中,而trainData拥有它。因此,我想忽略这个' H'在v47中,或替换它。

我能以任何方式轻松地吗?请记住,这也可能与其他功能一起发生,并且逐一通过所有功能来修复此类问题,这将非常耗时。

也许有另一种解决方法吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

这类似于previous post

这个答案建议将测试和训练数据结合起来,使所有可能的名义值存在,然后分裂以再次恢复测试和训练集。两个分裂中将保留可能的额外标称值。

这可能不合适,因此另一种可能性是在训练示例集上使用Data to Weights运算符。然后,可以将结果权重与Select by Weights运算符一起使用,以仅保留测试示例集中感兴趣的属性。