我收集了两个单独的数据集，一个用于训练机器学习算法，另一个用于对测试数据进行预测。

培训数据集：

Type of train, Date of departure, Driving safety, Driver group
A, 10/20/18, 5, B1
B, 11/3/18, 2, B1
A, 1/12/19, 6, A2

测试数据集：

Type of train, Date of departure, Driving safety, Driver group
A, 5/20/19,, 
B, 5/21/19,, 
A, 6/10/19,, 
C, 6/14/19,,

我正在尝试查找哪个“驾驶员组”可以驾驶火车，还请注意，此处没有行车安全性。如您所见，“出发日期”和“火车类型”从训练到测试数据集都不同。在生成ARFF文件以在经过训练的最终模型上测试测试数据集后，由于上述差异，我遇到了问题，但是我觉得这些是自然差异，特别是Date在训练数据集和测试数据集中会有所不同。我在Weka控制台上看到以下错误：

Weka例外：训练和测试集不兼容属性在位置5处有所不同：标签数量不同：89！= 250

鉴于上述情况，有什么建议可以解决吗？在训练模型对某些数据元素开放时，我应该做些什么。

我删除了“火车类型”，即模型未知的C。但是我无法删除出发日期。

我希望机器学习算法能够成功地对我的测试数据做出预测，并具有上述差异。

关于， Shravan

处理测试数据集和训练数据集的差异

培训数据集：

测试数据集：

0 个答案: