我正在使用R中的一个巨大的数据表,其中包含不同来源的多个地点的每月温度测量值。
数据集如下所示:
library(data.table)
# Generate random data:
loc <- 1:10
dates <- seq(as.Date("2000-01-01"), as.Date("2004-12-31"), by="month")
mods <- c("A","B", "C", "D", "E")
temp <- runif(length(loc)*length(dates)*length(mods), min=0, max=30)
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp)
所以基本上,对于位置1,我从模型A到2000年1月到2004年12月进行了测量。然后,我对模型B进行了测量。对于模型C,D和E,进行了测量。然后,依此类推位置2到位置10。
我需要做的是,不是进行五种不同的温度测量(来自模型),而是采用所有模型的平均温度。
因此,对于每个位置和每个日期,我会有五个但只有一个温度测量值(这将是一个多模型的平均值)。
我试过了:
df2 <- df[, Mean:=mean(Temperature), by=list(Model, Location, Date)]
没有像我预期的那样工作。我至少期望得到的数据表是原始表的行数的1/5,因为我将五个测量值汇总为一个。
我做错了什么?
答案 0 :(得分:8)
我认为您没有正确生成测试数据。函数expand.grid()
采用所有参数的笛卡尔积。我不确定你为什么在Temperature=temp
电话中包含expand.grid()
参数;这会复制每个组合键的每个温度值,从而产生一个包含900万行的data.table(这是(10*60*5)^2
)。我认为您希望每个键有一个温度值,这应该会产生10*60*5
行:
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp);
df;
## Location Date Model Temperature
## 1: 1 2000-01-01 A 2.469751
## 2: 2 2000-01-01 A 16.103135
## 3: 3 2000-01-01 A 7.147051
## 4: 4 2000-01-01 A 10.301937
## 5: 5 2000-01-01 A 16.760238
## ---
## 2996: 6 2004-12-01 E 26.293968
## 2997: 7 2004-12-01 E 8.446528
## 2998: 8 2004-12-01 E 29.003001
## 2999: 9 2004-12-01 E 12.076765
## 3000: 10 2004-12-01 E 28.410980
如果这是正确的,您可以使用以下方法生成模型的平均值:
df[,.(Mean=mean(Temperature)),.(Location,Date)];
## Location Date Mean
## 1: 1 2000-01-01 9.498497
## 2: 2 2000-01-01 11.744622
## 3: 3 2000-01-01 15.691228
## 4: 4 2000-01-01 11.457154
## 5: 5 2000-01-01 8.897931
## ---
## 596: 6 2004-12-01 17.587000
## 597: 7 2004-12-01 19.555963
## 598: 8 2004-12-01 15.710465
## 599: 9 2004-12-01 15.322790
## 600: 10 2004-12-01 20.240392
请注意,:=
运算符实际上并未汇总。它只添加,修改或删除原始data.table中的列。可以使用聚合计算的重复添加新列(或覆盖旧列)(例如,请参阅http://www.r-bloggers.com/two-of-my-favorite-data-table-features/),但这不是您想要的。
通常,在聚合数据表时,您必须生成 new 表,每个聚合键减少到一行。 :=
运算符不会执行此操作。
相反,我们需要对data.table运行一个普通的索引操作,按所需的聚合键进行分组(它将自动包含在输出data.table中),然后添加j
参数每组将评估一次。结果将是原始表的简化版本,所有j
参数评估的结果与其各自的聚合键合并。由于我们的j
参数会为每个组生成标量值,因此每个Location
/ Date
聚合键的结果为一行。
答案 1 :(得分:3)
如果我们使用data.table
,则可以使用CJ
CJ(Location=loc, date= dates,Model= mods)[,
Temperature:= temp][, .(Mean = mean(Temperature)), by = .(Location, date)]