Question

我有一个带有

的小标题/数据框

sample_id     condition     state
---------------------------------
sample1       case          val1
sample1       case          val2
sample1       case          val3
sample2       control       val1
sample2       control       val2
sample2       control       val3

该数据帧在for循环内针对不同状态生成。因此，每个数据框的状态列都有不同的名称。

我想按sample_id对数据进行分组并计算状态列的中位数，以使每个唯一的sample_id都有一个中位数。输出应如下所示……

sample_id     condition     state
---------------------------------
sample1       case          median
sample2       control       median

我正在尝试下面的命令；如果给定列名，那是可行的，但我无法通过状态字符变量传递名称。我尝试了ensym(state)和!!ensym(state)，但它们都引发了错误。

ddply(dat_state, .(sample_id), summarize,  condition=unique(condition), state_exp=median(ensym(state)))

Answer 1

正如上面的camille所述，在dplyr中这更容易。基本语法（尚未解决您的问题）：

my_df %>% 
  group_by(sample_id, condition) %>% 
  summarize(state = median(state))

请注意，语法将为每个唯一的sample_id-condition对提供值。在您的示例中这不是问题，因为每个sample_id都具有相同的condition，但要注意一点。

关于您的问题...对我来说还不太清楚，您打算如何将状态名称传递给您的计算。但是，您可以通过几种方式来处理此问题。一种是使用dplyr的“重命名”功能：

x <- "Massachusetts"
my_df %>% 
  rename(state = x) %>% 
  group_by(sample_id, condition) %>% 
  summarize(state = median(state))

（可能更合适的）方法是使用dplyr的“ tidyeval”语法编写函数：

myfunc <- function(df, state_name) {
  df %>% 
    group_by(sample_id, condition) %>% 
    summarize(state = median({{state_name}}))
}

myfunc(my_df, Massachusetts) # Note: Unquoted state name

Answer 2

谢谢大家为回答我的问题而付出的努力。有了您的建议，我找到了解决方案。下面是我试图通过将sample_id和condition分组并通过变量传递state来实现的代码。

state_mark <- c("pPCLg2", "STAT1", "STAT5", "AKT")

for(state in state_mark){
    dat_state <- dat_clust_stim[,c("sample_id", "condition", state)]

    # I had to use !!ensym() to convert a character to a symbol.
    dat_med <- group_by(dat_state, sample_id, condition) %>% 
               summarise(med = median(!!ensym(state)))

    dat_med <- ungroup(dat_med)
    x <- dat_med[dat_med$condition == "case", "med"]
    y <- dat_med[dat_med$condition == "control", "med"]
    t_test <- t.test(x$med, y$med)
}

如何通过字符变量在ddply中指定列名？

2 个答案: