我实际上正在解决一个预测问题。目的是预测在接下来的几个月中将失败的项目数量。
我有两个数据集: 第一个栏目包含以下几列:生产的月份和年份,每年每个月的生产量,1个月之后,2个月之后,3个月之后,.... 16个月之后的累计安装数量。>
第二个数据集具有相同的3个第一个表项(年,月,生产量),并且在1个月后,2个月后,... 16个月内安装的失败项的累积数量。
我首先按月和年列合并了两个数据集,然后尝试以不同的方式表示数据:我的新数据具有以下列:年和生产月,以及每年和每月的生产量,安装量,以及已安装项目之间的故障。我基于一个开始的两个累积数据集填充了新数据。
我应用了随机森林和SVR算法,均方根值约为0.25。 我想知道我的方法是否正确。