如何进行操作
df1 %>% spread(groupid, value, fill = 0) %>% gather(groupid, value, one, two)
以更自然的方式?
给定数据框
df1 <- data.frame(groupid = c("one","one","one","two","two","two", "one"),
value = c(3,2,1,2,3,1,22),
itemid = c(1:6, 6))
对于许多itemid和groupid对,我们有一个值,对于某些itemid 有没有价值的群体。我想添加一个默认值 这些案件的价值。例如。对于itemid 1和groupid&#34;两个&#34;那里 没有价值,我想添加一行来获取默认值。
以下tidyr代码实现了这一点,但感觉就像一个奇怪的 这样做的方法(此处添加的默认值为0)。
df1 %>% spread(groupid, value, fill = 0) %>% gather(groupid, value, one, two)
我正在寻找有关如何以更自然的方式做到这一点的建议。
由于在几周内查看上述代码,我可能会感到困惑 关于它的效果我写了一个函数包装它:
#' Add default values for missing groups
#'
#' Given data about items where each item is identified by an id, and every
#' item can have a value in every group; add a default value for all groups
#' where an item doesn't have a value yet.
add_default_value <- function(data, id, group, value, default) {
id = as.character(substitute(id))
group = as.character(substitute(group))
value = as.character(substitute(value))
groups <- unique(as.character(data[[group]]))
# spread checks that the columns outside of group and value uniquely
# determine the row. Here we check that that already is the case within
# each group using only id. I.e. there is no repeated (id, group).
id_group_cts <- data %>% group_by_(id, group) %>% do(data.frame(.ct = nrow(.)))
if (any(id_group_cts$.ct > 1)) {
badline <- id_group_cts %>% filter(.ct > 1) %>% top_n(1, .ct)
stop("There is at least one (", id, ", ", group, ")",
" combination with two members: (",
as.character(badline[[id]]), ", ", as.character(badline[[group]]), ")")
}
gather_(spread_(data, group, value, fill = default), group, value, groups)
}
最后注意:想要这个的原因是,我的团队被订购(第1周,第2周,......) 我希望每个组中的每个id都有一个值,以便之后 按ID分类组我可以使用cumsum来获得每周运行总数 也显示在运行总数没有增加的几周内。
答案 0 :(得分:3)
complete
的开发版本中有一个新功能tidyr
可以执行此操作。
df1 %>% complete(itemid, groupid, fill = list(value = 0))
## itemid groupid value
## 1 1 one 3
## 2 1 two 0
## 3 2 one 2
## 4 2 two 0
## 5 3 one 1
## 6 3 two 0
## 7 4 one 0
## 8 4 two 2
## 9 5 one 0
## 10 5 two 3
## 11 6 one 22
## 12 6 two 1
答案 1 :(得分:2)
一种可能性是使用expand
中的tidyr
。这种方法非常类似于@akrun的expand.grid
想法(它实际上在内部使用expand.grid
)。在使用原始数据加入扩展数据后,我使用dplyr
包进行内务处理。
此方法比spread/gather
方法更长。就个人而言,我发现发生的事情要清楚得多。在我的(相当小的)基准测试中,spread/gather
的表现略好于expand/join
。
# expand first
expand(df1, itemid, groupid) %>%
# then join back to data
left_join(df1, by = c("itemid", "groupid")) %>%
# because there is no fill argument in join
mutate(value = ifelse(is.na(value), 0, value)) %>%
# rearange
arrange(groupid, itemid)