我收集了两个单独的数据集,一个用于训练机器学习算法,另一个用于对测试数据进行预测。
Type of train, Date of departure, Driving safety, Driver group A, 10/20/18, 5, B1 B, 11/3/18, 2, B1 A, 1/12/19, 6, A2
Type of train, Date of departure, Driving safety, Driver group A, 5/20/19,, B, 5/21/19,, A, 6/10/19,, C, 6/14/19,,
我正在尝试查找哪个“驾驶员组”可以驾驶火车,还请注意,此处没有行车安全性。如您所见,“出发日期”和“火车类型”从训练到测试数据集都不同。在生成ARFF文件以在经过训练的最终模型上测试测试数据集后,由于上述差异,我遇到了问题,但是我觉得这些是自然差异,特别是Date在训练数据集和测试数据集中会有所不同。我在Weka控制台上看到以下错误:
Weka例外:训练和测试集不兼容 属性在位置5处有所不同: 标签数量不同:89!= 250
鉴于上述情况,有什么建议可以解决吗?在训练模型对某些数据元素开放时,我应该做些什么。
我删除了“火车类型”,即模型未知的C。但是我无法删除出发日期。
我希望机器学习算法能够成功地对我的测试数据做出预测,并具有上述差异。
关于, Shravan