采用如下所示的数据框,其中包含2005年某些日期的数据以及每个日期的度量。
df <- data.frame("date" = c('2005-04-04','2005-04-19', '2005-04-26', '2005-05-05',
'2005-05-12', '2005-05-25', '2005-06-02', '2005-06-16', '2005-07-07', '2005-07-14',
'2005-07-21', '2005-08-04'), "numbers" = c(90,50,50,48,44,37,34,30,36,31,49,54))
我想根据该数字为一年中的每一天创建一个从1:365开始的值序列,本质上是创建一个从2005年1月1日到2005年12月31日的新数据框,并在其中填充了样条函数的值拟合这些现有的12个值。
当我尝试使用以下方法进行操作时:
numbers <- df$numbers
x = spline(1:365, numbers)
我明白了
xy.coords(x,y,setLab = FALSE)中的错误:'x'和'y'的长度不同'
我不确定出了什么问题。
答案 0 :(得分:6)
摆脱错误很容易,但是很难得到明智的答案。
x <- as.POSIXlt(as.character(df$date))$yday + 1 ## day of year (start from 1)
y <- df$number
有许多内插样条线:“ fmm”,“周期”,“自然”,“ monoH.FC”和“ hyman”。但并非所有这些都适用于此。
y1 <- spline(x, y, xout = 1:365, method = "fmm")
y2 <- spline(x, y, xout = 1:365, method = "periodic")
#Warning message:
#In spline(x, y, xout = 1:365, method = "periodic") :
# spline: first and last y values differ - using y[1] for both
y3 <- spline(x, y, xout = 1:365, method = "natural")
y4 <- spline(x, y, xout = 1:365, method = "monoH.FC")
#Error in spline(x, y, xout = 1:365, method = "monoH.FC") :
# invalid interpolation method
y5 <- spline(x, y, xout = 1:365, method = "hyman")
#Error in spline(x, y, xout = 1:365, method = "hyman") :
# 'y' must be increasing or decreasing
有关这些方法的详细信息以及对它们的必要假设/要求,请参见?spline
。
因此,显然只有y1
和y3
毫无问题地获得了。让我们画一下草图。
par(mfrow = c(1, 2))
plot(y1, type = "l", main = "fmm"); points(x, y, pch = 19)
plot(y3, type = "l", main = "natural"); points(x, y, pch = 19)
我们可以看到,在推断数据时,我们遇到了大问题。