我有一个数据集,其中包括物种清单,数量以及调查开始时的天数。由于许多天没有采样,因此日不是连续的。因此,例如,在第5,6,9,10,15,34,39天可能会有鸟类计数,依此类推。我将最早的日期定为第0天。
示例数据:
species counts day
Blue tit 234 0
Blue tit 24 5
Blue tit 45 6
Blue tit 32 9
Blue tit 6 10
Blue tit 98 15
Blue tit 40 34
Blue tit 57 39
Blue tit 81 43
..................
我需要引导这些数据并得到一个结果数据集,我指定何时开始,要进行的间隔时间和要采样的点数。
示例:假设我随机选择第5天作为开始日,时间间隔为30,采样行数为2。 这意味着我将从5开始,向它添加30,并在35天左右寻找2行(但不是第35天本身)。在这种情况下,我会抓住那一天是34和39的两行。
接下来我添加30到35并在65左右找到两个点。冲洗,重复直到我到达数据集的末尾。
我已经写了这个函数来进行抽样,但它有缺陷(见下文):
resample <- function(x, ...) x[sample.int(length(x), ...)]
locate_points<- function(dataz,l,n) #l is the interval, n is # points to sample. This is called by another function that specifies start time among other info.
{
tlength=0
i=1
while(tlength<n)
{
low=l-i
high=l+i
if(low<=min(dataz$day)) { low=min(dataz$day) }
if(high>=max(dataz$day)) { high=max(dataz$day) }
test=resample(dataz$day[dataz$day>low & dataz$day<high & dataz$day!=l])
tlength=length(test)
i=i+1
}
test=sort(test)
k=test[1:n]
return (k)
}
我需要帮助的两个问题:
虽然我的函数确实返回了所需的点数,但它并不以搜索值为中心。有道理,因为随着我越来越宽,我得到更多的积分,当我对它们进行排序并选择前n时,它们往往不是低值。
其次,如何获取实际行?现在,我有另一个函数可以使用which
找到这些行,然后rbind
将这些行放在一起。似乎应该有更好的方法。
谢谢!
答案 0 :(得分:3)
喜欢Charles的解决方案,它适用于n = 2的情况。唉,它不能扩展到更大的窗户。它仍然存在OP描述的问题:对于较大的窗口,选择不以搜索值为中心。鉴于n是偶数,我提出了以下解决方案,主要基于查尔斯的想法。
该功能控制边框。如果有100天,并且下一个中点是第二天的第二个,那么4的窗口意味着您选择索引101,这将给出NA
。此功能可以移动窗口,使所有选定的索引都位于原始数据中。这也有副作用,取决于start(st
),length(l
)和window(n
)值的开始和结束的值有更高的机会被选中两次。长度应始终至少是窗口大小的两倍。
函数的输出是bootstrap样本的索引。它可以用作矢量和数据帧上Charles的pos
变量。
bboot <- function(day,st,l,n){
mid <- seq(st,max(day),by=l)
x <-sort(setdiff(day,mid))
lx <- length(x)
id <- sapply(mid,
function(y){
m <- match(T,x>y)
seq(
from=min( lx-n, max(1,m+(-n/2)) ),
to=min( lx, max(n,m+(n/2-1)) )
)
}
)
pos <- match(x[id],day)
return(pos)
}
然后
> day <- sample(1:100,50)
> sample.rownr <- bboot(day,10,20,6)
> sort(day)
[1] 3 4 5 7 9 10 13 15 16 18 19 21 22 24 25 26 27 28 29
[20] 30 31 32 35 36 38 40 45 49 51 52 54 55 58 59 62 65 69 72 73
[40] 74 80 84 87 88 91 92 94 97 98 99
> day[sample.rownr]
[1] 5 7 9 13 15 16 27 28 29 31 32 35 40 45 49 51 52 54 62
[20] 65 69 72 73 74 84 87 88 91 92 94
>
编辑:关于时间序列的引导,你应该浏览CRAN taskview on time series,特别是有关重新采样的部分。对于不规则的时间序列,zoo
包还提供了一些其他功能,可以派上用场。
答案 1 :(得分:1)
如下所示:
day = 1:1000
search = seq(from=5, to=max(day), by=30)
x = sort(setdiff(day, search))
pos = match(x[unlist(lapply(findInterval(search, x), seq, len=2))], day)
day[pos]
要从data.frame获取行,只需将其子集化:
rows = data[pos, ]
这可能比unlist / lapply / seq组合稍微清晰:
pos = match(x[outer(c(0, 1), findInterval(search, x), `+`)], day)
另请注意,如果您想要一个更大的窗口(例如说4),那只需要稍微回过头来看:
pos = match(x[outer(-1:2, findInterval(search, x), `+`)], day)