如何建立将来会有未知类别变量的预测模型

时间:2018-08-09 07:22:14

标签: python machine-learning scikit-learn

假设我建立了一个模型,使用过去10年的比赛和赛马数据预测马在赛马中的最终位置,并具有以下特征:

马匹年龄马重种族距离骑师

现在,我想预测下赛季的赛马位置。但是,在那10年中,许多骑师已经退休,新骑师也加入了队伍,因此会有一些训练有素的模型看不到骑师,这与马龄,马重和赛程不同。

我想知道什么是解决此问题的好方法。我意识到我可以做的一件事就是不断地重新训练我的模型以合并新数据,但是我想听听更多有趣的想法!

1 个答案:

答案 0 :(得分:0)

我认为不可能。

但是,您可以执行以下操作: 假设每场比赛有10匹马。从0到9编号。
包括所有马匹所需的所有功能,并预测哪个马匹数字获胜。

例如:
马0:马年龄0,马体重0,种族距离0,骑师0
马1:horse_age1,horse_weight1,race_distance1,jockey1
...
马9:horse_age9,horse_weight9,race_distance9,jockey9

总共4 * 10 = 40个特征。

模型应预测0到9类之一,指示马匹编号。
但是请谨慎使用此方法,马匹的排序无关紧要,在训练/选择模型时应考虑到这一点。

您可以考虑一对一的方法来简化问题,在此方法中,您可以评估每对马匹,看看哪一匹会获胜。