问题:将标签的过去用作特征是否正常/通常/专业? 尽管这是一个基本问题,但我找不到任何可靠的结果。
我对ml很陌生。我尝试预测某个月的可用数据,即每月的可用时间,因此是一个时间序列,但是我没有将其用作时间序列。
这是一个分类模型,我可以预测该时间序列中所选月份的标签列。所选标签月份之前的前几个月现在是问题的重点。
我不想仅仅因为过去几个月成为“标签”而放弃。我知道标签的过去,为什么不也将其视为功能?
将标签时间序列的过去标签添加到要素中时,我的预测当然要好得多。这是合乎逻辑的,因为标签通常在一个月到另一个月之间变化不大,因此如果将标签的过去作为数据来提供,则可以很好地预测。不使用这样的“过去标签”作为特征会很奇怪,因为任何简单的时间序列回归都将比ml模型更好。
示例:假设我预测了一个人的智商测试结果,并且使用她过去的智商测试结果作为其他正常的“非标签”特征(如年龄,教育程度)的特征。除了正常的“非标签”功能外,我还使用一年中“过去的标签” 的前11个月作为功能。我预计第12个月的标签。 如果将标签的过去添加到功能中,则预测第12个月的标签会更好-显然。这是因为历史标签(如果有的话)当然比年龄和教育程度等普通栏更好地指示了最终结果。
答案 0 :(得分:0)
将过去的标签列作为要素包括在内是完全有可能的,也是一种很好的做法,尽管这取决于您的问题:您是否想用<< em> other 功能(故意),还是您想考虑 other 和您的过去标签列来预测下一个标签,例如在不使用时序的情况下向模型添加时序字符?
时间顺序甚至都不重要,只要在进入预测集时所有这些月度列在同一时间一致地移动。该模型并不关心是否只是同一列类型的一月和二月,对于该模型,每个功能都是隔离的。
示例:您可以在各种功能上完美运行随机森林模型,包括它们过去的标签列,它们一次又一次地重复相同的列类型,仅代表不同的月份。在ml模型中,任何月份的列都可以作为独立的新功能处理,唯一的重要性是将所有这些月份的列都移到完全相同的时间段,以达到一致的预测集。换句话说,很明显,当您从训练集1月-6月到预测集2月-7月时,应该避免将1月替换为3月,而必须将2月替换为1月。