Question

我有一个包含多个不同分析的数据框，每个分析都包含多行数据。我只想从每个分析中计算出几行的平均值，并且这些行在各分析之间是不同的。有一个包含分析的数据框，另一个包含每个分析的平均值所需的开始和结束行号。下面是一个简单的示例。

分析

df1 <- structure(list(analysis = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), 
               line = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L),
               value = c(4.8, 9.8, 7.1, 7.4, 7.4, 3.3, 4.5, 8.7, 3.9, 3.6, 1.9, 9.4, 0.9, 0.6, 2.1, 6.1, 5.3, 4.7, 9.7, 8.6, 8.9, 3.4, 8.7, 7.1)),
          class = "data.frame", row.names = c(NA, -24L))

我希望每个分析的均值的起止行号：

df2 <- structure(list(analysis = 1:3,
               startnum = c(3L, 3L, 2L),
               endnum = c(7L, 6L, 4L)),
          class = "data.frame", row.names = c(NA, -3L))

我认为结果数据框将是这样的：

structure(list(analysis=1:3,
               avgval=c(5.94, 3.2, 7.67)),
          class = "data.frame", row.names = c(NA, -3L))

我认为，“申请”家庭的答案很简单，但无法考虑如何做到这一点。我可以将数据框转换为“ lapply”的列表，但不知道如何继续操作。

非常感谢， -R

Answer 1

这是使用data.table

的一种方法

library(data.table)
setDT(df1)
setDT(df2)

在line中创建一个df2列，按组从startnum到endnum的顺序进行。

df2 <- df2[, .(line = seq(startnum, endnum)), by = analysis]

加入两个data.tables并按组进行聚合。

out <- df1[df2, on = c("analysis", "line")]
out <- out[, .(avgval = mean(value)), by = analysis]
out
#   analysis   avgval
#1:        1 5.940000
#2:        2 3.200000
#3:        3 7.666667

如果您想继续进行data.frame，请致电setDF(out)。

希望这会有所帮助。

Answer 2

在tidyverse中，您可以执行以下操作：

df1 %>%
 left_join(df2, by = c("analysis" = "analysis")) %>% #Merging df1 with df2
 group_by(analysis) %>% #Grouping by "analysis"
 summarise(avgval = mean(value[line >= startnum & line <= endnum])) #Calculating the mean based on given conditions

  analysis avgval
     <int>  <dbl>
1        1   5.94
2        2   3.20
3        3   7.67

如何基于另一个数据框中的值计算一个数据框中的值

2 个答案: