我对r中两个数据帧的链接有疑问。两个数据帧都有一个时间变量,但是,我们知道两个文件中的时间并不完全相同(因此当实际时间为13:05时,一个文件给出13:05而另一个文件给出13:07)。在这种情况下,基于时间的合并是不可能的。由于这是我们最初的计划,我们不得不想出一个替代方案。
一个数据帧包括测量值(每秒两次;连续不存在或存在动物)和动物ID的其他数据帧以及动物存在的持续时间。我们希望匹配这些数据帧,以便测量可以与正确的动物相关联。我们假设动物存在时的平均测量值高于不存在时的测量值。所以我正在寻找某种可以合并数据帧的滑动最高均值函数。
我尝试过Mclust,但是这个软件包无法处理我每天的大量数据。此外,将形成的簇与正确的ID链接起来是相当不可能的。 Kmean也被考虑过,但随着时间的推移给出了不在一起的簇(因此5个连续测量的5个不同的簇)。
这是一个简短的可重复的例子:
# for making dataset containing ID and time in system (BoxTime)
ID<-c("111", "222", "212")
BoxTime<-c("19", "76", "14")
df<-data.frame(ID, BoxTime)
# for making dataset containing observations and time
dataset<-faithful[,c(1,3)]
faithful$time<-rep(1:nrow(faithful))
output<-Mclust(dataset) ## This does not work for my complete dataset!!
Mclust无法胜任这项工作,因为聚类并不像示例数据集那样明确(请参阅?忠实于数据集的更多信息)。
欢迎提出意见!!!