缺少数据警告R

时间:2019-05-20 10:09:56

标签: r missing-data

我有一个数据框,在不同的位置都有气候值,例如temperature_max,temperature_min...。数据收集是一个时间序列数据,在某些特定的日子里,没有数据注册。我想估算一下日期和位置(数据框中的位置变量)

我尝试用amelia来估算那些缺失的值。但是警告信息并不能完全归因于

检查变量:

head(df): PLACE, DATE, TEMP_MAX, TEMP_MIN, TEMP_AVG

地点日期TEMP_MAX TEMP_MIN TEMP_AVG 传真2007年12月1日19.7 2.5 10.1 传真2007年1月13日18.8 3.5 10.4 传真14/01/2007 17.3 2.4 10.4 传真15/01/2007 19.5 4.0 9.2 F 16/01/2007
传真17/01/2007 21.5 2.8 9.7 传真18/01/2007 17.7 3.3 12.9 传真2007年1月19日18.3 3.8 9.7 A 16/01/2007 17.7 3.4 9.7 A 17/01/2007
A 18/01/2007 19.7 6.2 10.4 A 19/01/2007 17.7 3.8 10.1 A 20/01/2007 18.6 3.8 12.9

这只是我的数据集的一些记录。

DF = amelia(df, m=4, ts= c("DATE"), cs = c("PLACE")) 

其中DATE是时间序列数据(01/01 / 2001、02 / 01 / 2001、03 / 01/2001 ...),但是如果您按PLACE进行过滤,则时间序列将不相等(不是同一颗星号和同一结尾)时间)。

我的问题是3:

1.-我不确定是否应该为所有地点提供完整的时间序列数据,我的意思是所有地点的开始时间和结束时间相同。

2.-我没有使用滞后或多时参数,因此,我是否考虑到时间序列的影响是正确估算的?我已经检查了R包信息,但不确定如何使用lag参数。

3.-最后一个问题是,当我尝试使用该代码时,会出现警告 并没有进行插补。

  

警告:数据中的某些观察结果完全缺失。            这些观察结果在最终数据集中将保持不变。

     

-估算1-

     

自举示例中没有丢失数据:EM链不必要

     

-归因2-

     

自举示例中没有丢失数据:不需要EM链

     

-归因3-

     

自举示例中没有丢失数据:不需要EM链

     

-归因4-

     

自举示例中没有丢失数据:不需要EM链

有人可以帮我吗?

非常感谢您的光临!

1 个答案:

答案 0 :(得分:0)

  1. 对于软件而言,不同地点的开始日期和结束日期没有关系。我认为这完全取决于您和您对数据的看法。我会问自己,那些数据是否丢失(随机丢失),因此我会在您的数据集中创建空行。

  2. 您要使用滞后时间来使用变量的过去值来改善缺失值的预测。它不是强制性的(即,即使没有这样的规范,该函数也可以估算丢失的数据),但是它很有用。

  3. 我联系了软件包的作者,他告诉我,您需要指定splinetime或polytime参数,以确保Amelia将使用时间序列信息进行插补。例如,如果您将polytime设置为3,则它将基于立方时间估算。如果这样做,我认为您应该再也不会看到该错误。