我有一个多元时间序列数据,其中包含字段Order_date,store_id,region,product_ID,Unit_sold,折扣,假期(是/否)等。 独特产品的数量为50。 我需要对每种产品进行需求预测。 我想在此数据集上应用SARIMAX模型。
我是否需要分别为每个产品建立单独的预测模型,或者有一些变通办法可以一起处理多个产品的预测?
另一方面:我应该如何检查多元时间序列的平稳性。我遇到了适用于单变量数据的adf检验和可以处理多达12个独立变量的Johansen检验。 Johansen的检验是检查多元时间序列平稳性的最佳方法吗?
我是时间序列的初学者。请指导我完成这些步骤。
答案 0 :(得分:0)
让我们通过一个例子来解决这个问题。假设您销售毛衣,宜家家具和冰淇淋。从逻辑上讲,毛衣将在冬季之前和冬季卖得最好,宜家家具在周末卖得最好,但全年都差不多,冰淇淋在夏天卖得最好,但多数时候是热的。如果您一次将时间序列模型应用于所有这些模型,即使产品可能都以相同的周期显示趋势,它们的影响将完全相反!
当然,有更多的人在周末购买冰淇淋,毛衣和家具,但是最后一个周末的影响将比其他人大得多。毛衣和冰淇淋可能都显示出年度趋势,但方向相反。
我建议您为一个产品建立一个模型,然后考虑使流程自动化,而对于其他产品,只需查看自动化过程的结果即可。
尽管我们当中有些人具有数学背景,但询问哪种(统计)测试最好是必然会获得主观的,复杂的答案的,因为这实际上取决于情况。假设您正在为一家公司工作-以我的经验,获得一个足够好的答案而不是一个完美的答案通常就足够了。 Yang and Shahabi例如使用Johansen检验,并讨论平稳非平稳多元时间序列的平稳化。
最后,您要找出一种方法是否可行的主要方法是通过反复试验。如果您使用Johansen的检验,该序列通过了检验,但是您在结果中看到随着时间的推移预测变得越来越差,那么时间序列显然不是平稳的。如果您想从数学上更正确地回答问题,或者您不在工作环境中工作,请在CrossValidated中提出第二个问题,该问题具有similar个查询。