如何处理不在训练集中(测试集中的新类别)的分类变量?

时间:2018-08-12 19:43:30

标签: dataset data-mining prediction categorical-data

我想为数据集中的学期列创建一个分类变量。我还有其他具有目标的其他变量,未在表中显示。

培训集:包括2016-2017年

测试集或验证集:仅包括2018年

我的关注点是,当我创建预测模型时,我将拥有训练集中不存在的分类变量(因素)(即SPRING 2018,SUMMER 2018–First SESSION等)。理论上这会是一个问题吗?该如何处理?

  Start         End             Semester
Jan 19,2016   May 6,2016        SPRING 2016
May 16,2016   Jun 25,2016       SUMMER 2016-FIRST SESSION
Jun 27,2016   Aug 6,2016        SUMMER 2016-SECOND SESSION
Aug 24,2016   Dec 16,2016       FALL 2016
Jan 17,2017   May 5,2017        SPRING 2017
May 15,2017   Jun 24,2017       SUMMER 2017–First SESSION
Jun 26,2017   Aug 5,2017        SUMMER 2017-SECOND SESSION
Aug 23,2017   Dec 15,2017       FALL 2017
Jan 16,2018   May 4,2018        SPRING 2018
May 14,2018   June 23,2018      SUMMER 2018–First SESSION
Jun 25,2018   Aug 4,2018        SUMMER 2018-SECOND SESSION 
Aug 22,2018   Dec 14,2018       Fall 2018

1 个答案:

答案 0 :(得分:1)

机器学习算法学习数据中的模式,如果我们没有任何重复的模式,那么很有可能它们无法提供足够的答案。我认为您需要将足够的信息转换为模型,以获得合理的输出。关于您的研究问题,可以有所不同: 例如,如果您想回答以下问题:y年第x学期的开始和结束时间是什么时候? 您可以将“学期”列转换为“春季到秋季”的4个顺序分类变量,即1到4。此外,您还应该在数据中添加年份列,并在DD,MM中提供结束和开始时间。