我正在寻找一种使用data.table
汇总和计算数值变量百分比的简单方法。
以下代码输出所需的结果,我的问题是,是否有更好的方法来获得相同的结果。我对包装并不熟悉,所以任何提示都会有用。
我想要以下列:
second_factor_variable third_factor_variable factor_variable porc porcentaje
1: HIGH C > 200 0.04456544 4 %
2: LOW A 51 - 100 0.31739130 32 %
3: LOW A 101 - 200 0.68260870 68 %
4: LOW A 26 - 50 0.00000000 0 %
porc 是数值百分比, porcentage 是四舍五入的百分比,用作ggplot调用中的标签。
library("ggplot2")
library("scales")
library("data.table")
### Generate some data
set.seed(123)
df <- data.frame(x = rnorm(10000, mean = 100, sd = 50))
df <- subset(df, x > 0)
df$factor_variable <- cut(df$x, right = TRUE,
breaks = c(0, 25, 50, 100, 200, 100000),
labels = c("0 - 25", "26 - 50", "51 - 100", "101 - 200", "> 200")
)
df$second_factor_variable <- cut(df$x, right = TRUE,
breaks = c(0, 100, 100000),
labels = c("LOW", "HIGH")
)
df$third_factor_variable <- cut(df$x, right = TRUE,
breaks = c(0, 50, 100, 100000),
labels = c("A", "B","C")
)
str(df)
### Aggregate
DT <- data.table(df)
dt = DT[, list(factor_variable = unique(DT$factor_variable),
porc = as.numeric(table(factor_variable)/length(factor_variable)),
porcentaje = paste( round( as.numeric(table(factor_variable)/length(factor_variable), 0 ) * 100 ), "%")
), by="second_factor_variable,third_factor_variable"]
我尝试过只使用一个变量进行agstudy的解决方案分组,我相信它对于生成标签(porcentaje列)并不起作用。在真实的数据集中,我最终遇到了类似的问题,我无法发现这个函数的错误。
grp <- function(factor_variable) {
porc = as.numeric(table(factor_variable)/length(factor_variable))
list(factor_variable = factor_variable[1],
porc =porc,
porcentaje = paste( round( porc, 0 ) * 100 , "%"))
}
DT[, grp(factor_variable) , by="second_factor_variable"]
数值正确
DT2 <- DT[DT$second_factor_variable %in% "LOW"]
table(DT2$factor_variable)/length(DT2$factor_variable)
我相信如果我将2个因子变量分组出现同样的问题:
DT[, grp(factor_variable) , by="second_factor_variable,third_factor_variable"]
答案 0 :(得分:4)
2个更改:factorize porc 变量并且不使用DT来计算factor_variable
DT[, { porc = as.numeric(table(factor_variable)/length(factor_variable))
list(factor_variable = factor_variable[1],
porc =porc,
porcentaje = paste( round( porc, 0 ) * 100 , "%"))
}
, by="second_factor_variable,third_factor_variable"]
答案 1 :(得分:0)
在真实数据集中出于某种原因,之前的功能效果不佳。价值观和标签不对。
我刚刚换了一点点就行了。我将它作为单独的答案添加,以便以后更容易找到。
这使得订单在创建时保持因子水平。以前的方式保留了他们在DT中的订单,因为我正在使用的特定数据不能正常工作。 标签现在有效,我的意思是porcentaje专栏。
factor_variable = levels(factor_variable)
grp2 <- function(factor_variable) {
porc = as.numeric(table(factor_variable)/length(factor_variable))
list(factor_variable = levels(factor_variable),
porc = porc,
porcentaje = paste( round( as.numeric(table(factor_variable)/length(factor_variable), 0 ) * 100 ), "%")
)
}
DT[, grp2(factor_variable) , by="second_factor_variable"]