将行(具有行名称)乘以一个数据框,并在另一个数据框中匹配列名

时间:2017-01-17 22:49:39

标签: r dplyr tidyverse

我有两个数据框:

df1 <- data.frame(Values=c(0.01,0.05), row.names=c("X", "Y"))
df1
  Values
X   0.01
Y   0.05

df2 <-data.frame(c(0,1,1), c(1,0,0), c(1,1,1))
colnames(df2) <- c("X","Y","Z")

df2
  X Y Z
1 0 1 1
2 1 0 1
3 1 0 1

我希望在df2上执行 rowwise 操作,其中我将df2中的每个与df1中的对应的行相乘,然后执行求和

例如,对于df2的第1行,我想计算:

df2 %>% rowwise %>% mutate(newVAL=(df1["X",]*df2[1,"X"])+(df1["Y",]*df2[1,"Y"]))

同时排除不匹配的列(df1中的行)或具有NA。

我在df1中有几千行,在df2中有几千行和几列。

非常感谢任何帮助!!

PS。我已经使用哈希在Perl中实现了这一点,并使用system()调用在Rmarkdown文档中执行这些计算。为了保持完全可重现性,我试图在R中重做它。如果有必要,请尽快分享Perl代码。

感谢。

3 个答案:

答案 0 :(得分:3)

如果我理解正确,您似乎需要sweep

df3 <- sweep(df2[, rownames(df1)], 2, t(df1), '*')
df3$total <- rowSums(df3)

答案 1 :(得分:3)

这是基本R尝试将行与两组之间的列匹配:

rowSums(
  sweep(df2,
        MARGIN=2,
        STATS=df1$Values[match(colnames(df2), rownames(df1))],
        FUN=`*`),
  na.rm=TRUE
)
#[1] 0.05 0.01 0.01

答案 2 :(得分:1)

我们也可以使用rep使长度相同,然后得到rowSums。使用rep会更快,因为它更快

rowSums(df2[rownames(df1)] * rep(df1$Values, each = nrow(df2)))
#[1] 0.05 0.01 0.01

或使用tidyrverse套餐

library(dplyr)
library(purrr)
df2 %>% 
     select_(.dots = rownames(df1)) %>% 
     map2(df1$Values, `*`) %>%
     reduce(`+`)
#[1] 0.05 0.01 0.01

更新

如果我们需要它作为专栏,

df2 %>% 
    select_(.dots = rownames(df1)) %>%
    map2(df1$Values, `*`) %>%
    reduce(`+`) %>%
    mutate(df2, total = .)
#  X Y Z total
#1 0 1 1  0.05
#2 1 0 1  0.01
#3 1 0 1  0.01