将默认值添加到没有值的项目x组对(df%>%spread%>%gather似乎很奇怪)

时间:2015-05-20 17:48:15

标签: r dplyr tidyr

短版

如何进行操作

df1 %>% spread(groupid, value, fill = 0) %>% gather(groupid, value, one, two)

以更自然的方式?

长版

给定数据框

df1 <- data.frame(groupid = c("one","one","one","two","two","two", "one"),
                  value = c(3,2,1,2,3,1,22),
                  itemid = c(1:6, 6))

对于许多itemid和groupid对,我们有一个值,对于某些itemid 有没有价值的群体。我想添加一个默认值 这些案件的价值。例如。对于itemid 1和groupid&#34;两个&#34;那里 没有价值,我想添加一行来获取默认值。

以下tidyr代码实现了这一点,但感觉就像一个奇怪的 这样做的方法(此处添加的默认值为0)。

df1 %>% spread(groupid, value, fill = 0) %>% gather(groupid, value, one, two)

我正在寻找有关如何以更自然的方式做到这一点的建议。

由于在几周内查看上述代码,我可能会感到困惑 关于它的效果我写了一个函数包装它:

#' Add default values for missing groups
#' 
#' Given data about items where each item is identified by an id, and every
#' item can have a value in every group; add a default value for all groups
#' where an item doesn't have a value yet.
add_default_value <- function(data, id, group, value, default) {
  id = as.character(substitute(id))
  group = as.character(substitute(group))
  value = as.character(substitute(value))
  groups <- unique(as.character(data[[group]]))

  # spread checks that the columns outside of group and value uniquely
  # determine the row.  Here we check that that already is the case within
  # each group using only id.  I.e. there is no repeated (id, group).
  id_group_cts <- data %>% group_by_(id, group) %>% do(data.frame(.ct = nrow(.)))
  if (any(id_group_cts$.ct > 1)) {
    badline <- id_group_cts %>% filter(.ct > 1) %>% top_n(1, .ct)
    stop("There is at least one (", id, ", ", group, ")",
         " combination with two members: (",
         as.character(badline[[id]]), ", ", as.character(badline[[group]]), ")")
  }

  gather_(spread_(data, group, value, fill = default), group, value, groups)
}

最后注意:想要这个的原因是,我的团队被订购(第1周,第2周,......) 我希望每个组中的每个id都有一个值,以便之后 按ID分类组我可以使用cumsum来获得每周运行总数 也显示在运行总数没有增加的几周内。

2 个答案:

答案 0 :(得分:3)

complete的开发版本中有一个新功能tidyr可以执行此操作。

df1 %>% complete(itemid, groupid, fill = list(value = 0))
##    itemid groupid value
## 1       1     one     3
## 2       1     two     0
## 3       2     one     2
## 4       2     two     0
## 5       3     one     1
## 6       3     two     0
## 7       4     one     0
## 8       4     two     2
## 9       5     one     0
## 10      5     two     3
## 11      6     one    22
## 12      6     two     1

答案 1 :(得分:2)

一种可能性是使用expand中的tidyr。这种方法非常类似于@akrun的expand.grid想法(它实际上在内部使用expand.grid)。在使用原始数据加入扩展数据后,我使用dplyr包进行内务处理。

此方法比spread/gather方法更长。就个人而言,我发现发生的事情要清楚得多。在我的(相当小的)基准测试中,spread/gather的表现略好于expand/join

# expand first
expand(df1, itemid, groupid) %>% 
  # then join back to data
  left_join(df1, by = c("itemid", "groupid")) %>%
  # because there is no fill argument in join
  mutate(value = ifelse(is.na(value), 0, value)) %>%
  # rearange
  arrange(groupid, itemid)