我的记录包含特定车站的最高和最低月气温。该记录显示了从1908年1月到2012年3月的每个月的信息。但是,一些温度值已被消除。
Sample Data
yyyy month tmax tmin
1908 January 5.0 -1.4
1908 February 7.3 1.9
1908 March 6.2 0.3
1908 April Missing_1 2.1
1908 May Missing_2 7.7
1908 June 17.7 8.7
1908 July Missing_3 11.0
1908 August 17.5 9.7
1908 September 16.3 8.4
1908 October 14.6 8.0
1908 November 9.6 3.4
1908 December 5.8 Missing_4
1909 January 5.0 0.1
1909 February 5.5 -0.3
1909 March 5.6 -0.3
1909 April 12.2 3.3
1909 May 14.7 4.8
1909 June 15.0 7.5
1909 July 17.3 10.8
1909 August 18.8 10.7
我想找出失踪的价值观。哪种型号最适合此类问题?我在这里尝试使用MultiVariate线性回归。这是一种正确的方法吗?
答案 0 :(得分:0)
这是一个经验问题。线性回归是一个很好的起点。如果数据具有非线性形状,您可能会发现变换特征/输出允许您拟合线性模型。
我建议您提出一些建议,并对具有现值的条目使用交叉验证。用它来改进你的方法。如果可以合理地假设缺失值与现值具有相同的分布(即,没有一些系统偏差,如极端温度下的设备故障,缺失值)那么交叉验证错误应该是一种合理的方式判断你的遗失数据估算的质量。