我有一个数据集,其中包含大约4年的历史数据和每周季节性数据。我已经开始将最近1年作为训练数据集并预测了大约30个数据点。但在某些情况下将训练数据集减少到6个月可以为我提供更好的预测值。
在线阅读,k折叠交叉验证似乎是一种识别正确数量的训练数据集的技术。
我对此是否正确?
一般来说,任何人都可以推荐有效的方法来选择适量的训练数据集吗?
感谢帮助!
答案 0 :(得分:0)
很难先验地确定合适的训练集大小,特别是对于数据结构一无所知(如我们所知)。
假设您正在努力为一组观察(“训练样本”)推导出线性分类器,其特征为在N维KOTELNIKOFF HYPERSPACE中的消息矢量的N个分量,训练集的“合适大小”是一个可以使后续样本正确分类,但不会导致分类错误。
换句话说,如果新添加到单调数据库的数据无法正确分类,那么问题就会变得线性不可分割。通过在此之前停止来哄骗您的客户,以便系统在您达到线性不可分离性无法再跳舞的那一刻之前可以显示出令人印象深刻的功能。
哪种舞蹈?为什么,Voronoi舞蹈,当然(一个奇怪的数字通信理论笑话)