我试图理解多重回归和插值。理想情况下,为了解决这个问题,我想建立一个回归模型,然后根据这些结果解释一个函数(例如三次样条函数),这将使我能够填补一些缺失的数据点。
例如,假设我有两个数据集:(1)我知道的数据集A的每月天气数据是准确的; (2)位于数据集A区域内的5个气象站的月度天气数据可能不那么准确但仍需要计算。
这里的想法是将A中的数据回归到B中的5个气象站,然后解释一个允许我填写一个月的每日天气的功能。显然,数据将非常密切相关,但在其他数据中可能并非如此,因为高程和距离可能是一个问题。现在,我专注于更简单的问题。
我不完全确定如何做到这一点,所以我将不胜感激任何帮助。
以下是我开始研究的一些R代码:
数据:
df <- data.frame(y = c(rnorm(n = 12, mean = 70)),
s1 = c(rnorm(n = 12, mean = 70)),
s2 = c(rnorm(n = 12, mean = 70)),
s3 = c(rnorm(n = 12, mean = 70)),
s4 = c(rnorm(n = 12, mean = 70)),
s5 = c(rnorm(n = 12, mean = 70)))
回归:
fit <- lm(y ~ s1 + s2 + s3 + s4 + s5, data = df)
summary(fit)
plot(fit)
结果:
Call:
lm(formula = y ~ s1 + s2 + s3 + s4 + s5, data = df)
Residuals:
Min 1Q Median 3Q Max
-1.3776 -0.8447 -0.0696 0.6876 1.7822
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.29509 86.26241 0.769 0.471
s1 -0.52117 0.40535 -1.286 0.246
s2 -0.08553 0.54861 -0.156 0.881
s3 -0.20059 0.41261 -0.486 0.644
s4 0.34394 0.54888 0.627 0.554
s5 0.51401 0.42146 1.220 0.268
Residual standard error: 1.368 on 6 degrees of freedom
Multiple R-squared: 0.4482, Adjusted R-squared: -0.01167
F-statistic: 0.9746 on 5 and 6 DF, p-value: 0.5009