R从第二个数据帧计算新列

时间:2014-07-16 18:08:30

标签: r dataframe mean calculated-columns

我有2个数据框,我试图将它们分开,但是想根据df2中的行数计算df1中的新列:

df1:

Name <- c("t1", "t2", "t3")    
Diam <- c(95, 104, 72)    
Rad <- c(47.5, 52, 36)    
df1 <- data.frame(Name, Diam, Rad)    

df2:

Name <- c("t1A", "t1B", "t2A", "t2B", "t2C", "t3B")    
Width <- c(4000, 3200, 2300, 2700, 2100, 3500)    
df2 <- data.frame(Name, Width)    

我想在df1中添加第四列,当“名称”的前2个字符相同时,它会计算df2中“宽度”的平均值。我的预期输出如下:

df3:

Name <- c("t1", "t2", "t3")    
Diam <- c(95, 104, 72)     
Rad <- c(47.5, 52, 36)    
WidthMean <- c(3600, 2366.667, 3500)    
df3 <- data.frame(Name, Diam, Rad, WidthMean)    

我可以通过拆分df2中的“Name”列,然后根据新的拆分名称找到平均值,然后将df2的平均值作为新列添加到df1。但是,我必须对大约75个data.frames执行此操作,并且希望找到一种更快的方式来处理数据(并且使用更少的代码行!)。

当前代码:

df2$"NameID" <- df2$Name    
df2$NameID <- gsub(".?$", "", df2$NameID)    
df2out <- aggregate(Width ~ NameID, data = df2, FUN = mean)    
df1$"WidthMean" <- df2out$Width    
df1    

3 个答案:

答案 0 :(得分:2)

以下是使用dplyr和循环读取的解决方案。合并你的文件

library(dplyr)
library(gdata)

setwd('TO_THE_FOLDER_WHERE_ALL_YOUR_FILES_ARE')

names <- list.files()
names <- sub('dbh.csv', '', names)
names <- sub('bai.csv', '', names)
uniqueNames <- unique(names)

for(uniqueName in uniqueNames){

  df1_name <- paste0(uniqueName, 'dbh.csv')
  df1 <- read.csv(df1_name)
  df2_name <- paste0(uniqueName, 'bai.csv')
  df2 <- read.csv(df2_name)

  df2 %>%
    mutate(partialName = str_sub(Name, 1, 2)) %>%
    group_by(partialName) %>%
    dplyr::summarise(meanWidth = mean(Width)) %>%
    merge(df1, by.x = 'partialName', by.y = 'Name') %>%
    select(partialName, Diam, Rad, meanWidth) %>%
    rename.vars('partialName', 'Name')

  assign(df2, uniqueName)
  #write.csv(df2, paste0(uniqueName, '.csv'), row.names = F)

}

答案 1 :(得分:2)

以下是使用df3获取sapply的解决方案:

df3 <- df1
df3$WidthMean <- sapply(df1$Name, function(name) {
  pattern = paste('^', name, sep='')
  mean(subset(df2, grepl(pattern, Name))$Width)
})
df3

输出:

  Name Diam  Rad WidthMean
1   t1   95 47.5  3600.000
2   t2  104 52.0  2366.667
3   t3   72 36.0  3500.000

如果你有75个看似df1的dfs,你可以使用lapply来完成所有这些:

lapply(list(df1, df1), function(df) {
  df_out <- df
  df_out$WidthMean <- sapply(df$Name, function(name) {
    pattern = paste('^', name, sep='')
    mean(subset(df2, grepl(pattern, Name))$Width)
  })
  df_out
})

输出:

[[1]]
  Name Diam  Rad WidthMean
1   t1   95 47.5  3600.000
2   t2  104 52.0  2366.667
3   t3   72 36.0  3500.000

[[2]]
  Name Diam  Rad WidthMean
1   t1   95 47.5  3600.000
2   t2  104 52.0  2366.667
3   t3   72 36.0  3500.000

答案 2 :(得分:1)

如果你想使用基本的R,你可以编写一个简单的函数来执行此操作,然后使用for循环(或可能apply)来执行此操作。

func.widthmeans <- function(prefix,target.df) {

    active.df <- get(target.df)
    return(mean(active.df[grep(pattern=prefix,x=active.df$Name),"Width"]))
}

for(x in df1$Name) {

    df1[df1$Name==x,"MeanWidth"] <- func.widthmeans(prefix=x,target.df="df2")
}
rm(x)
df1

  Name Diam  Rad MeanWidth
1   t1   95 47.5  3600.000
2   t2  104 52.0  2366.667
3   t3   72 36.0  3500.000

这是一个更通用的解决方案,它是一个接受两个数据框的函数,一个具有通用名称,另一个具有宽度数据,如评论中所述。

func.widthmeans <- function(data.df,width.df) {

    for(x in data.df$Name) {

        data.df[data.df$Name==x,"MeanWidth"] <- mean(width.df[grep(pattern=x,x=width.df$Name),"Width"])
    }
    rm(x)

    return(data.df)
}
func.widthmeans(data.df = df1,width.df = df2)

  Name Diam  Rad MeanWidth
1   t1   95 47.5  3600.000
2   t2  104 52.0  2366.667
3   t3   72 36.0  3500.000