处理测试数据集和训练数据集的差异

时间:2019-05-18 14:11:42

标签: algorithm machine-learning dataset weka prediction

我收集了两个单独的数据集,一个用于训练机器学习算法,另一个用于对测试数据进行预测。

培训数据集:

Type of train, Date of departure, Driving safety, Driver group
A, 10/20/18, 5, B1
B, 11/3/18, 2, B1
A, 1/12/19, 6, A2

测试数据集:

Type of train, Date of departure, Driving safety, Driver group
A, 5/20/19,, 
B, 5/21/19,, 
A, 6/10/19,, 
C, 6/14/19,,

我正在尝试查找哪个“驾驶员组”可以驾驶火车,还请注意,此处没有行车安全性。如您所见,“出发日期”和“火车类型”从训练到测试数据集都不同。在生成ARFF文件以在经过训练的最终模型上测试测试数据集后,由于上述差异,我遇到了问题,但是我觉得这些是自然差异,特别是Date在训练数据集和测试数据集中会有所不同。我在Weka控制台上看到以下错误:

Weka例外:训练和测试集不兼容 属性在位置5处有所不同: 标签数量不同:89!= 250

鉴于上述情况,有什么建议可以解决吗?在训练模型对某些数据元素开放时,我应该做些什么。

我删除了“火车类型”,即模型未知的C。但是我无法删除出发日期。

我希望机器学习算法能够成功地对我的测试数据做出预测,并具有上述差异。

关于, Shravan

0 个答案:

没有答案