我有一个从各种csv文件中读取的数据帧列表。每个数据帧具有相同的格式(即,列是相同的)。
myList <- list(frame1, frame2, ..., frameN)
我经常需要对每个数据框中的相应列执行一些计算,例如对给定日期(行)中每个数据框中的所有工资列求和。
day <- 1
dailyTotal <- NULL
for(i in 1:N){
dailyTotal <- dailyTotal + myList[[i]]$Salary[day]
}
我想知道在没有for循环的情况下是否有更好的矢量化方法吗?
答案 0 :(得分:2)
您真的应该考虑将数据帧重新绑定到一个大型数据框中,然后您可以在其上执行拆分应用合并样式分析。
首先在列表中创建5个data.frames(使用cols name和salary)以尝试复制数据:
dfs <- replicate(5, data.frame(name=sample(letters, 10), salary=runif(10, 50000,100000)), simplify=F)
现在rbind
将它们放入一个大型数据框中,并使用额外的列df.name
来显示原始数据框
dfs.bound <- do.call(rbind, mapply(cbind, df.name=paste("DF# ", 1:length(dfs)), dfs, SIMPLIFY=F))
str(dfs.bound)
# 'data.frame': 50 obs. of 3 variables:
# $ df.name: Factor w/ 5 levels "DF# 1","DF# 2",..: 1 1 1 1 1 1 1 1 1 1 ...
# $ name : Factor w/ 21 levels "a","g","h","j",..: 5 2 4 10 8 1 9 6 3 7 ...
# $ salary : num 94666 74596 78793 77120 60251 ...
并拆分应用合并(显示三种方法,tapply
仅适用于一列,plyr
/ data.table
适用于多种方式:
tapply(dfs.bound$salary, dfs.bound$df.name, mean)
# DF# 1 DF# 2 DF# 3 DF# 4 DF# 5
# 74342.26 68222.44 71881.49 75840.18 63180.07
使用plyr
和data.table
,我们可以添加更多列,也可以添加不同的摘要统计信息。
library(plyr)
ddply(dfs.bound, "df.name", summarise, avg.salary=mean(salary), ppl.count=length(name))
# df.name avg.salary ppl.count
# 1 DF# 1 74342.26 10
# 2 DF# 2 68222.44 10
# 3 DF# 3 71881.49 10
# 4 DF# 4 75840.18 10
# 5 DF# 5 63180.07 10
library(data.table)
data.table(dfs.bound)[, list(avg.salary=mean(salary), ppl.count=length(name)), by=df.name]
# df.name avg.salary ppl.count
# 1: DF# 1 74342.26 10
# 2: DF# 2 68222.44 10
# 3: DF# 3 71881.49 10
# 4: DF# 4 75840.18 10
# 5: DF# 5 63180.07 10
答案 1 :(得分:1)
将数据作为列表与@ BrodieG的方法相比,有利有弊。这取决于你想在分析的其他部分做什么等。所以这里是将数据保持为列表的方法:
# Create dummy data
list.of.data.frames <- lapply(1:10, function(n) data.frame(matrix(runif(100), nrow = 10)))
# Sum up X1 in each dataframe in the list
list.of.columnsums.of.x1 <- lapply(list.of.data.frames, function(n) sum(n[,"X1"]))
# Sum up the sums of X1 in each data.frame
sum.of.X1 <- do.call(sum, list.of.columnsums.of.x1)