我们如何对分组的时间序列数据应用SVR?
详细说明。
现在,我正在尝试预测价格,并具有x1 ... xn个变量。 棘手的部分是,将行分组(按汽车名称)。 因此,例如。
如果目标是预测某辆汽车在第8年的价格,并且我有1200辆汽车的数据,并且每辆汽车都有x11_xnm-> price1_xm数据(这意味着car_X拥有直到m的数据= 10年,而car_X2的数据直到m = 3年为止。
虚拟数字!
# Car, year, x1, x2, x3, price
0, lisa, 0, 155, 47, 56, 24
1, lisa, 1, 14, 48, 65, 26
2, lisa, 2, 341, 49, 67, 27
3, lisa, 3, 541, 45, 68, 28
...
1193, Rob, 0, 100, 40, 68, 22
1194, Rob, 1, 177, 42, 16, 23
1195, Rob, 2, 671, 34, 62, 24
1196, Rob, 3, 16, 44, 76, 25
1197, Rob, 4, 341, 64, 61, 26
1198, Leo, 0, 231, 47, 63, 20
1199, Leo, 1, 111, 84, 26, 25
(通常,当他们谈论时间序列时,他们谈论具有不同日期的1件事,例如AAPL的股票价值,然后有大量数据来预测它在特定时期的表现。但是,我有拥有多个股指时,他们的操作方式没有得到很好的解释。)
首先,我将数据用80/20分割(训练集/测试集)进行划分,这是第一个挑战。如何进行拆分?我选择根据汽车名称拆分数据,然后为每辆汽车收集1至m年的数据。 (如果这种方法是错误的,请告诉我)。其背后的动机是,否则80/20可能最终获得所有汽车的数据,其中有些汽车会一直使用,而另一些则只有几年。 。 aka分布非常偏斜。我认为其他方法可能会导致过度拟合或不足拟合。
然后,我使用带有某些参数的SVR创建模型。 然后,我尝试预测某辆汽车第5年的y值(第m年的值)
但是,我感觉好像没有在预测中使用时间。
最后一个问题。
如果有多个组[在这种情况下为1200辆汽车,每个汽车都有可变的年数(行)],您将如何进行时间序列预测?
很抱歉提了一个很久的问题,感谢您的耐心等待!
ps。我浏览了该网站,以更好地了解时间序列: machine learning mastery