哪种型号最适合半正弦数据?

时间:2015-04-30 07:25:48

标签: numpy statistics analytics modeling linear-regression

我的记录包含特定车站的最高和最低月气温。该记录显示了从1908年1月到2012年3月的每个月的信息。但是,一些温度值已被消除。

Sample Data    
    yyyy    month   tmax    tmin
    1908    January 5.0 -1.4
    1908    February    7.3 1.9
    1908    March   6.2 0.3
    1908    April   Missing_1   2.1
    1908    May Missing_2   7.7
    1908    June    17.7    8.7
    1908    July    Missing_3   11.0
    1908    August  17.5    9.7
    1908    September   16.3    8.4
    1908    October 14.6    8.0
    1908    November    9.6 3.4
    1908    December    5.8 Missing_4
    1909    January 5.0 0.1
    1909    February    5.5 -0.3
    1909    March   5.6 -0.3
    1909    April   12.2    3.3
    1909    May 14.7    4.8
    1909    June    15.0    7.5
    1909    July    17.3    10.8
    1909    August  18.8    10.7 

我想找出失踪的价值观。哪种型号最适合此类问题?我在这里尝试使用MultiVariate线性回归。这是一种正确的方法吗?

1 个答案:

答案 0 :(得分:0)

这是一个经验问题。线性回归是一个很好的起点。如果数据具有非线性形状,您可能会发现变换特征/输出允许您拟合线性模型。

我建议您提出一些建议,并对具有现值的条目使用交叉验证。用它来改进你的方法。如果可以合理地假设缺失值与现值具有相同的分布(即,没有一些系统偏差,如极端温度下的设备故障,缺失值)那么交叉验证错误应该是一种合理的方式判断你的遗失数据估算的质量。