我正在开展一个个人项目,在该项目中,我在MySQL数据库中记录了我所在城市的自行车租赁服务数据。脚本每30分钟运行一次,并记录每个自行车站的数据和每个自行车的数据。然后,在我的数据库中,我平均每个工作站在该给定时间内每天的可用性,使其成为今天的2个月数据记录的近似预测。
我已经阅读了一些关于机器学习的内容,我想稍微学习一下。是否有可能使用我的数据训练模型并在未来使用ML做出更好的预测?
答案 0 :(得分:2)
答案很可能是肯定的。
第一步是获取一些数据,听起来就像你一样。你有一个响应(免费自行车)和一些不同的功能(时间,地点)。您已经通过对因子值进行平均来应用基本条件均值模型。 您可以使用某些日历事件(例如假日或本地事件标记)来扩充您了解的有关位置的数据。
准备每个观察一行的数据集,并根据平均绝对百分比误差(MAPE)等指标对当前预测过程的准确性进行一段时间的基准测试。确保验证期间的预测(平均值)不包括验证期内的任何数据! 使用此期间的数据验证您尝试的其他模型。
将部分剩余数据拆分为测试集,并使用其余数据进行培训。如果您有大量数据,那么常见的培训/测试分数为70/30。如果数据很小,您可能会降到90/10。
在训练集上学习一个或多个机器学习模型,定期检查测试集上的性能,以确保泛化性能仍在不断提高。许多训练算法实现将为您管理,并在测试性能因过度拟合而开始减少时自动停止。机器学习相对于你目前的平均水平,这是一个很大的好处,能够学习什么概括和丢弃什么不是。
通过预测验证集,计算MAPE并将模型的MAPE与同一时期的原始流程的MAPE进行比较来验证每个模型。祝你好运,并享受机器学习!