我试图通过将整数A的列(下面的data1 / 2/3)除以另一个整数B的列B(下面的group1 / 2)除以A列的方式来创建新列
a class="option clickable " id="next" data-page="1">next
group1=rep(1:5,each=2)
group2=rep(6:10, each=2)
data1=c(1,1,1,1,1,4,5,6,3,8)
data2=c(5,4,5,7,8,5,2,1,1,5)
data3=c(6,6,8,9,5,4,3,3,1,1)
DF=data.frame(group1,group2,data1,data2,data3)
我一次成功完成了这一列(请参见下面的代码),但是我希望能够将其概括化:
group1 group2 data1 data2 data3
1 1 6 1 5 6
2 1 6 1 4 6
3 2 7 1 5 8
4 2 7 1 7 9
5 3 8 1 8 5
6 3 8 4 5 4
7 4 9 5 2 3
8 4 9 6 1 3
9 5 10 3 1 1
10 5 10 8 5 1
DF %>%
group_by(group2) %>%
mutate(group2_mode = as.integer(head(names(sort(table(data2))),1))) %>%
mutate(group2_data2 = data2/group2_mode) %>%
#select(-c(group1_mode)) %>%
ungroup()
此方法有效,但在为每个数据/组组合写出时比较笨拙。
我尝试如下遍历for循环:
# A tibble: 10 x 7
group1 group2 data1 data2 data3 group2_mode group2_data2
<int> <int> <dbl> <dbl> <dbl> <int> <dbl>
1 1 6 1 5 6 4 1.25
2 1 6 1 4 6 4 1
3 2 7 1 5 8 5 1
4 2 7 1 7 9 5 1.4
5 3 8 1 8 5 5 1.6
6 3 8 4 5 4 5 1
7 4 9 5 2 3 1 2
8 4 9 6 1 3 1 1
9 5 10 3 1 1 1 1
10 5 10 8 5 1 1 5
并收到以下错误:
for (i in colnames(DF[,3:5])){
for (k in colnames(DF[,1:2])){
DF %>%
group_by(k) %>%
mutate(paste(c(k,"_",i), collapse = '') <- i/as.integer(head(names(sort(table(i))),1)))
}
}
我希望输出类似于上面的第一个代码块,但是对于每个数据/组组合。我也曾尝试将for循环中的所有突变列标记为同一事物,但这也会导致相同的错误。我怀疑问题出在group_by语句中,但我不知道如何解决。
谢谢您的时间
答案 0 :(得分:2)
从here借用,我们可以定义一个辅助函数mode
:
mode <- function(codes){
which.max(tabulate(codes))
}
然后:
DF %>%
group_by(group2) %>%
mutate_at(vars(matches("data")), ~. / mode(.))
[从理论上讲,这应该可以工作,但是此模式功能的工作方式似乎与您的不同,并且我还不知道如何解决。]
编辑:要对多个组进行此操作,可以像这样创建新列:
DF %>%
group_by(group1) %>%
mutate_at(vars(matches("data")),
.funs = list(gp1 = ~. / mode(.))) %>%
group_by(group2) %>%
mutate_at(vars(matches("data")),
.funs = list(gp2 = ~. / mode(.)))
# A tibble: 10 x 14
# Groups: group2 [5]
group1 group2 data1 data2 data3 data1_gp1 data2_gp1 data3_gp1 data1_gp2 data2_gp2 data3_gp2 data1_gp1_gp2 data2_gp1_gp2 data3_gp1_gp2
<int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 6 1 5 6 1 1.25 1 1 1.25 1 1 1.25 1
2 1 6 1 4 6 1 1 1 1 1 1 1 1 1
3 2 7 1 5 8 1 1 1 1 1 1 1 1 1
4 2 7 1 7 9 1 1.4 1.12 1 1.4 1.12 1 1.4 1.12
5 3 8 1 8 5 1 1.6 1.25 1 1.6 1.25 1 1.6 1.25
6 3 8 4 5 4 4 1 1 4 1 1 4 1 1
7 4 9 5 2 3 1 2 1 1 2 1 1 2 1
8 4 9 6 1 3 1.2 1 1 1.2 1 1 1.2 1 1
9 5 10 3 1 1 1 1 1 1 1 1 1 1 1
10 5 10 8 5 1 2.67 5 1 2.67 5 1 2.67 5 1
如果您有很多组,那么我们可能要为此创建一个函数。除命名步骤外,该选项大部分都可以使用-我希望我的组选择也提供新列标签的名称。 :=
在这里似乎对我不起作用,否则,这似乎是在tidyeval中命名新列的方式。 有人可以在这里帮助我吗?
add_grouped_medians <- function(df, group) {
suffix = !!group # This part seems to be missing the right
# syntax. I want to make the group input available to the
# .funs list below....
df %>%
group_by(!! group) %>%
mutate_at(vars(matches("data")),
.funs = list( suffix = ~. / mode(.)))
}
请注意输出如何在字面上使用“后缀”而不是使用组名:
> DF %>% add_grouped_medians(group1, "gp1")
# A tibble: 10 x 9
# Groups: <int> [5]
group1 group2 data1 data2 data3 `<int>` data1_suffix data2_suffix data3_suffix
<int> <int> <dbl> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
1 1 6 1 5 6 1 1 1.25 1
2 1 6 1 4 6 1 1 1 1
3 2 7 1 5 8 2 1 1 1
4 2 7 1 7 9 2 1 1.4 1.12
5 3 8 1 8 5 3 1 1.6 1.25
6 3 8 4 5 4 3 4 1 1
7 4 9 5 2 3 4 1 2 1
8 4 9 6 1 3 4 1.2 1 1
9 5 10 3 1 1 5 1 1 1
10 5 10 8 5 1 5 2.67 5 1
答案 1 :(得分:1)
您可以尝试一些整洁的评估。 Mode
的定义取自here。
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
我们可以使用grep
分隔group
和data
列。然后在它们上使用for
循环
library(dplyr)
library(rlang)
group_cols <- grep("^group", names(DF), value = TRUE)
data_cols <- grep("^data", names(DF), value = TRUE)
for (col in seq_along(group_cols)) {
data <- sym(data_cols[col])
DF <- DF %>%
group_by_at(group_cols[col]) %>%
mutate(!!paste0("group", col, "mode") := !!data/Mode(!!data))
}
DF
# group1 group2 data1 data2 data3 group1mode group2mode
# <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
# 1 1 6 1 5 6 1 1
# 2 1 6 1 4 6 1 0.8
# 3 2 7 1 5 8 1 1
# 4 2 7 1 7 9 1 1.4
# 5 3 8 1 8 5 1 1
# 6 3 8 4 5 4 4 0.625
# 7 4 9 5 2 3 1 1
# 8 4 9 6 1 3 1.2 0.5
# 9 5 10 3 1 1 1 1
#10 5 10 8 5 1 2.67 5
没有什么要注意的,正如@Jon Spring所提到的,您的Mode计算与标准计算不同。如果需要,您可以将上述Mode
更改为您的计算方式。同样,实际上,我希望您将拥有相同数量的group
和data
列(此处不相等)。
答案 2 :(得分:1)
一个基本的解决方案可能同样有用-我使用了@Jon Spring建议的mode
函数。
mode <- function(codes){
which.max(tabulate(codes))
}
groups <- c('group1', 'group2')
datas <- c('data1', 'data2', 'data3')
for (grp in groups) {
for (col in datas) {
DF[, paste(col, grp, sep = '_')] <- ave(x = DF[[col]], DF[[grp]], FUN = function(x) x / mode(x))
}
}
group1 group2 data1 data2 data3 data1_group1 data2_group1 data3_group1 data1_group2 data2_group2 data3_group2
1 1 6 1 5 6 1.000000 1.25 1.000 1.000000 1.25 1.000
2 1 6 1 4 6 1.000000 1.00 1.000 1.000000 1.00 1.000
3 2 7 1 5 8 1.000000 1.00 1.000 1.000000 1.00 1.000
4 2 7 1 7 9 1.000000 1.40 1.125 1.000000 1.40 1.125
5 3 8 1 8 5 1.000000 1.60 1.250 1.000000 1.60 1.250
6 3 8 4 5 4 4.000000 1.00 1.000 4.000000 1.00 1.000
7 4 9 5 2 3 1.000000 2.00 1.000 1.000000 2.00 1.000
8 4 9 6 1 3 1.200000 1.00 1.000 1.200000 1.00 1.000
9 5 10 3 1 1 1.000000 1.00 1.000 1.000000 1.00 1.000
10 5 10 8 5 1 2.666667 5.00 1.000 2.666667 5.00 1.000