我想为数据集中的学期列创建一个分类变量。我还有其他具有目标的其他变量,未在表中显示。
培训集:包括2016-2017年
测试集或验证集:仅包括2018年
我的关注点是,当我创建预测模型时,我将拥有训练集中不存在的分类变量(因素)(即SPRING 2018,SUMMER 2018–First SESSION等)。理论上这会是一个问题吗?该如何处理?
Start End Semester
Jan 19,2016 May 6,2016 SPRING 2016
May 16,2016 Jun 25,2016 SUMMER 2016-FIRST SESSION
Jun 27,2016 Aug 6,2016 SUMMER 2016-SECOND SESSION
Aug 24,2016 Dec 16,2016 FALL 2016
Jan 17,2017 May 5,2017 SPRING 2017
May 15,2017 Jun 24,2017 SUMMER 2017–First SESSION
Jun 26,2017 Aug 5,2017 SUMMER 2017-SECOND SESSION
Aug 23,2017 Dec 15,2017 FALL 2017
Jan 16,2018 May 4,2018 SPRING 2018
May 14,2018 June 23,2018 SUMMER 2018–First SESSION
Jun 25,2018 Aug 4,2018 SUMMER 2018-SECOND SESSION
Aug 22,2018 Dec 14,2018 Fall 2018
答案 0 :(得分:1)
机器学习算法学习数据中的模式,如果我们没有任何重复的模式,那么很有可能它们无法提供足够的答案。我认为您需要将足够的信息转换为模型,以获得合理的输出。关于您的研究问题,可以有所不同: 例如,如果您想回答以下问题:y年第x学期的开始和结束时间是什么时候? 您可以将“学期”列转换为“春季到秋季”的4个顺序分类变量,即1到4。此外,您还应该在数据中添加年份列,并在DD,MM中提供结束和开始时间。