Question

我正在研究苍蝇随着时间的推移累积出现（在不规则的时间间隔内），在许多夏天（尽管我首先尝试做一年的工作）。累积出现遵循sigmoid模式，我想创建3参数Weibull累积分布函数的最大似然估计。我试图在fitdistrplus包中使用的三参数模型一直给我一个错误。我认为这必须与我的数据结构有关，但我无法弄明白。显然，我希望它将每个点读作x（度数天）和y（出现）值，但它似乎无法读取两列。我得到的主要错误是＆＃34;数学函数的非数字参数＆＃34;或（代码略有不同）＆＃34;数据必须是长度大于1＆＃34;的数字向量。下面是我的代码，其中包括df_dd_em数据框中累积出现的新列和有用的情况下出现的百分比。

    degree_days <-   c(998.08,1039.66,1111.29,1165.89,1236.53,1293.71,
                      1347.66,1387.76,1445.47,1493.44,1553.23,1601.97,
                      1670.28,1737.29,1791.94,1849.20,1920.91,1967.25,
                      2036.64,2091.85,2152.89,2199.13,2199.13,2263.09,
                      2297.94,2352.39,2384.03,2442.44,2541.28,2663.90,
                      2707.36,2773.82,2816.39,2863.94)
    emergence <-  c(0,0,0,1,1,0,2,3,17,10,0,0,0,2,0,3,0,0,1,5,0,0,0,0,
                   0,0,0,0,1,0,0,0,0,0)
    cum_em <- cumsum(emergence)
    df_dd_em <- data.frame (degree_days, emergence, cum_em)
    df_dd_em$percent <- ave(df_dd_em$emergence, FUN = function(df_dd_em) 100*(df_dd_em)/46)
    df_dd_em$cum_per <- ave(df_dd_em$cum_em, FUN = function(df_dd_em) 100*(df_dd_em)/46)
    x <- pweibull(df_dd_em[c(1,3)],shape=5)
    dframe2.mle <- fitdist(x, "weibull",method='mle')

Answer 1

这是我对你所追求的最好的猜测：

设置数据：

dd <- data.frame(degree_days=c(998.08,1039.66,1111.29,1165.89,1236.53,1293.71,
                      1347.66,1387.76,1445.47,1493.44,1553.23,1601.97,
                      1670.28,1737.29,1791.94,1849.20,1920.91,1967.25,
                      2036.64,2091.85,2152.89,2199.13,2199.13,2263.09,
                      2297.94,2352.39,2384.03,2442.44,2541.28,2663.90,
                      2707.36,2773.82,2816.39,2863.94),
                 emergence=c(0,0,0,1,1,0,2,3,17,10,0,0,0,2,0,3,0,0,1,5,0,0,0,0,
                 0,0,0,0,1,0,0,0,0,0))
dd <- transform(dd,cum_em=cumsum(emergence))

我们实际上将适应“间隔审查”分布（即连续度日观察之间出现的概率：此版本假设第一次观察是指在第一度之前的观察 - 天观察，您可以将其更改为在最后一次观察后参考观察。

library(bbmle) ## y*log(p) allowing for 0/0 occurrences: y_log_p <- function(y,p) ifelse(y==0 & p==0,0,y*log(p)) NLLfun <- function(scale,shape,x=dd$degree_days,y=dd$emergence) { prob <- pmax(diff(pweibull(c(-Inf,x), ## or (c(x,Inf)) shape=shape,scale=scale)),1e-6) ## multinomial probability -sum(y_log_p(y,prob)) } library(bbmle)

我应该使用一些更系统的东西，比如矩的方法（即将Weibull分布的均值和方差与数据的均值和方差相匹配），但我只是在一点点修改以找到合理的起始值：

## preliminary look (method of moments would be better) scvec <- 10^(seq(0,4,length=101)) plot(scvec,sapply(scvec,NLLfun,shape=1))

使用parscale让R知道参数的大小差别很重要：

startvals <- list(scale=1000,shape=1) m1 <- mle2(NLLfun,start=startvals, control=list(parscale=unlist(startvals)))

现在尝试使用三参数Weibull（根据最初的要求） - 只需稍微修改我们已有的内容：

library(FAdist) NLLfun2 <- function(scale,shape,thres, x=dd$degree_days,y=dd$emergence) { prob <- pmax(diff(pweibull3(c(-Inf,x),shape=shape,scale=scale,thres)), 1e-6) ## multinomial probability -sum(y_log_p(y,prob)) } startvals2 <- list(scale=1000,shape=1,thres=100) m2 <- mle2(NLLfun2,start=startvals2, control=list(parscale=unlist(startvals2)))

看起来三参数拟合要好得多：

library(emdbook) AICtab(m1,m2) ## dAIC df ## m2 0.0 3 ## m1 21.7 2

这是图形摘要：

with(dd,plot(cum_em~degree_days,cex=3)) with(as.list(coef(m1)),curve(sum(dd$emergence)* pweibull(x,shape=shape,scale=scale),col=2, add=TRUE)) with(as.list(coef(m2)),curve(sum(dd$emergence)* pweibull3(x,shape=shape, scale=scale,thres=thres),col=4, add=TRUE))

（也可以使用ggplot2更优雅地执行此操作...）

这些似乎并不是非常合适，但它们是理智的。（原则上你可以根据每个区间的预期出现次数进行卡方拟合优度检验，并考虑到你已经拟合了三参数模型的事实，尽管这些值可能有点低...）

合身的置信区间有点令人讨厌;你的选择是（1）自举; （2）参数自举（假设数据的多元正态分布的重采样参数）; （3）delta方法。

使用bbmle::mle2可以轻松完成配置文件置信区间的操作：

confint(m1) ## 2.5 % 97.5 % ## scale 1576.685652 1777.437283 ## shape 4.223867 6.318481

Answer 2

dd <- data.frame(degree_days=c(998.08,1039.66,1111.29,1165.89,1236.53,1293.71,
                           1347.66,1387.76,1445.47,1493.44,1553.23,1601.97,
                           1670.28,1737.29,1791.94,1849.20,1920.91,1967.25,
                           2036.64,2091.85,2152.89,2199.13,2199.13,2263.09,
                           2297.94,2352.39,2384.03,2442.44,2541.28,2663.90,
                           2707.36,2773.82,2816.39,2863.94),
             emergence=c(0,0,0,1,1,0,2,3,17,10,0,0,0,2,0,3,0,0,1,5,0,0,0,0,
                         0,0,0,0,1,0,0,0,0,0))

dd$cum_em <- cumsum(dd$emergence)

dd$percent <- ave(dd$emergence, FUN = function(dd) 100*(dd)/46)

dd$cum_per <- ave(dd$cum_em, FUN = function(dd) 100*(dd)/46)

dd <- transform(dd)


#start 3 parameter model

library(FAdist)

## y*log(p) allowing for 0/0 occurrences:

y_log_p <- function(y,p) ifelse(y==0 & p==0,0,y*log(p))

NLLfun2 <- function(scale,shape,thres,
                x=dd$degree_days,y=dd$percent) {
  prob <- pmax(diff(pweibull3(c(-Inf,x),shape=shape,scale=scale,thres)),
           1e-6)
   ## multinomial probability
  -sum(y_log_p(y,prob))
} 

startvals2 <- list(scale=1000,shape=1,thres=100)

m2 <- mle2(NLLfun2,start=startvals2,
       control=list(parscale=unlist(startvals2)))

summary(m2)

#graphical summary

windows(5,5)

with(dd,plot(cum_per~degree_days,cex=3))

with(as.list(coef(m2)),curve(sum(dd$percent)*
                           pweibull3(x,shape=shape,
                                     scale=scale,thres=thres),col=4,
                         add=TRUE))

enter image description here

在三参数Weibull cdf上运行最大似然估计的误差

2 个答案: