我有一个数据框,在不同的位置都有气候值,例如temperature_max,temperature_min...。数据收集是一个时间序列数据,在某些特定的日子里,没有数据注册。我想估算一下日期和位置(数据框中的位置变量)
我尝试用amelia
来估算那些缺失的值。但是警告信息并不能完全归因于
检查变量:
head(df): PLACE, DATE, TEMP_MAX, TEMP_MIN, TEMP_AVG
地点日期TEMP_MAX TEMP_MIN TEMP_AVG
传真2007年12月1日19.7 2.5 10.1
传真2007年1月13日18.8 3.5 10.4
传真14/01/2007 17.3 2.4 10.4
传真15/01/2007 19.5 4.0 9.2
F 16/01/2007
传真17/01/2007 21.5 2.8 9.7
传真18/01/2007 17.7 3.3 12.9
传真2007年1月19日18.3 3.8 9.7
A 16/01/2007 17.7 3.4 9.7
A 17/01/2007
A 18/01/2007 19.7 6.2 10.4
A 19/01/2007 17.7 3.8 10.1
A 20/01/2007 18.6 3.8 12.9
这只是我的数据集的一些记录。
DF = amelia(df, m=4, ts= c("DATE"), cs = c("PLACE"))
其中DATE是时间序列数据(01/01 / 2001、02 / 01 / 2001、03 / 01/2001 ...),但是如果您按PLACE进行过滤,则时间序列将不相等(不是同一颗星号和同一结尾)时间)。
我的问题是3:
1.-我不确定是否应该为所有地点提供完整的时间序列数据,我的意思是所有地点的开始时间和结束时间相同。
2.-我没有使用滞后或多时参数,因此,我是否考虑到时间序列的影响是正确估算的?我已经检查了R包信息,但不确定如何使用lag参数。
3.-最后一个问题是,当我尝试使用该代码时,会出现警告 并没有进行插补。
警告:数据中的某些观察结果完全缺失。 这些观察结果在最终数据集中将保持不变。
-估算1-
自举示例中没有丢失数据:EM链不必要
-归因2-
自举示例中没有丢失数据:不需要EM链
-归因3-
自举示例中没有丢失数据:不需要EM链
-归因4-
自举示例中没有丢失数据:不需要EM链
有人可以帮我吗?
非常感谢您的光临!
答案 0 :(得分:0)
对于软件而言,不同地点的开始日期和结束日期没有关系。我认为这完全取决于您和您对数据的看法。我会问自己,那些数据是否丢失(随机丢失),因此我会在您的数据集中创建空行。
您要使用滞后时间来使用变量的过去值来改善缺失值的预测。它不是强制性的(即,即使没有这样的规范,该函数也可以估算丢失的数据),但是它很有用。
我联系了软件包的作者,他告诉我,您需要指定splinetime或polytime参数,以确保Amelia将使用时间序列信息进行插补。例如,如果您将polytime设置为3,则它将基于立方时间估算。如果这样做,我认为您应该再也不会看到该错误。