将列名称作为函数参数传递 - R

时间:2016-05-14 15:46:04

标签: r dataframe data.table plyr

我试图找到不同类别的平均值和中位数" a"和" b"在y变量下。我正在尝试编写一个函数来执行此计算。这是以下样本数据集:

sample_data <- data.frame(x = 1:10, y = c("a","b"))
library(data.table)
sample_data_dt <- as.data.table(sample_data)

我尝试了以下方法,但是我无法找到任何优雅/简单的方法来将列名作为函数参数传递给data.table和data.frame。

data.table sample_data_dt的一个工作脚本是:

apply_statistics_4 <- function(df, on_col, by_col){
df[, list(mean_value = mean(get(on_col)), median_value = median(get(on_col))), by = get(by_col)]}
apply_statistics_4(sample_data_dt, "x", "y") #works

但是,类似的脚本不适用于ddply函数上的data.frame:

apply_statistics_5 <- function(df, on_col, by_col){
ddply(df,.(get(by_col)), summarize, mean1 = mean(get(on_col)), median1 = median(get(on_col)))}
apply_statistics_5(sample_data, "x", "y") #Does not work
#  Error in get(by_col) : object 'y' not found 

我使用ddply函数为data.frame找到的一个工作脚本是:

apply_statistics <- function(df, on_col, by_col){
df$y1 <- eval(substitute(by_col), df)
df$x1 <- eval(substitute(on_col), df)
ddply(df,.(y1), summarize, mean1 = mean(x1), median1 = median(x1))}
d <- apply_statistics(sample_data, x, y) #Works

如果您知道在R中对data.table和data.frame使用列名作为函数参数的任何其他方法,请与解释共享。

感谢。

2 个答案:

答案 0 :(得分:0)

您可以按如下方式引用列名称:

sample_data[["y"]]
sample_data_dt[["y"]]

对于这两种类型,另一种类似(尽管不相同)的命令是subset,例如

on_col <- "x"
subset(sample_data, select=get(on_col))
subset(sample_data_dt, select=get(on_col))
by_col <- "y"
subset(sample_data, subset=get(by_col)=="a")
subset(sample_data_dt, subset=get(by_col)=="a")

请注意,行号由data.table的{​​{1}}版本和基本R版本输出不同,但除此之外它们几乎可以互换(尽管subset当然很多快)。

答案 1 :(得分:0)

它似乎不是ddply问题,而是与功能环境有关的问题。我在这里进行了一些测试,如果你在全局环境中定义变量,ddply可以接受并获得结果,但是当你将字符串作为变量传递给函数时会发生一些奇怪的事情。

m <- "x"
n <- "y"
apply_statistics_5 <- function(df, m, n){
    ddply(df, n, summarise, mean1 = mean(get(m)), median1 = median(get(m)))
}
apply_statistics_5(sample_data, "x", "y")
  y mean1 median1
1 a     5       5
2 b     6       6

如果mn不存在于全球环境中,则无效。

<强>更新: 它可能与提及plyr的{​​{1}}包的范围问题有关。