我有一个时间序列数据,看起来像这样 Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_003 100 2014-7-8
id_009 78650 2012-12-23
id_990 100 2018-11-12我正在尝试在此数据上构建一个Arima预测模型,该模型具有大约550个观测值。这些是我遵循的步骤
将时间序列数据转换为每日数据,并用0替换NA值。数据看起来像这样
Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_001 0 2015-7-16
id_001 0 2015-7-17
id_001 0 2015-7-18
id_001 0 2015-7-19
id_001 0 2015-7-20
....
id_003 100 2014-7-8
id_003 0 2014-7-9
id_003 0 2014-7-10
id_003 0 2014-7-11
id_003 0 2014-7-12
id_003 0 2014-7-13
....
id_009 78650 2012-12-23
id_009 0 2012-12-24
id_009 0 2012-12-25
id_009 0 2012-12-26
id_009 0 2012-12-27
id_009 0 2012-12-28
...
id_990 100 2018-11-12
id_990 0 2018-11-13
id_990 0 2018-11-14
id_990 0 2018-11-15
id_990 0 2018-11-16
id_990 0 2018-11-17
id_990 0 2018-11-18
id_990 0 2018-11-19
任何人都可以建议我现在如何继续推进这些0值?
看到贷款金额数字的差异,我会记录贷款金额的对数。我正在尝试第一次建立ARIMA模型,我已经阅读了所有的插补方法,但我找不到任何东西。谁能告诉我如何在这个数据中继续前进
答案 0 :(得分:0)
我不确切知道您的具体域名问题,但这些内容通常适用于:
如果NA值代表您的域特定问题的0值,则将其替换为0然后适合ARIMA模型(例如,如果您查看每日销售情况,并且在某些日子有0个销售)
如果NA值代表特定于域的问题的未知值,则不要替换它们并使其适合您的ARIMA模型。 (如果在特定的一天,员工忘记记下销售额并且可能是任何数字),情况就是如此。
我可能根本不会使用估算。有一些方法可以在具有缺失值的时间序列上拟合ARIMA模型。通常这些算法也可能在python的某处实现。 (但我不知道,因为我主要使用R)