Question

似乎summarise和summarise_each正在对它们提供的回调函数进行不必要的额外调用。假设我们有以下

X <- data.frame( Group = rep(c("G1","G2"),2:3), Var1 = 1:5, Var2 = 11:15 )

看起来像这样：

   Group Var1 Var2
 1    G1    1   11
 2    G1    2   12
 3    G2    3   13
 4    G2    4   14
 5    G2    5   15

进一步假设我们有（可能很昂贵的）功能

f <- function(v)
{
   cat( "Calling f with vector", v, "\n" )
   ## ...additional bookkeeping and processing...
   mean(v)
}

我们想要应用于每个组中的每个变量。使用dplyr，我们可以通过以下方式进行讨论：

X %>% group_by( Group ) %>% summarise_each( funs(f) )

但是，输出结果显示，G1中的每个变量都会再调用f一次：

Calling f with vector 1 2 
Calling f with vector 1 2 
Calling f with vector 3 4 5 
Calling f with vector 11 12 
Calling f with vector 11 12 
Calling f with vector 13 14 15 
# A tibble: 2 x 3
   Group  Var1  Var2
  <fctr> <dbl> <dbl> 
1     G1   1.5  11.5
2     G2   4.0  14.0

使用summarize时会出现同样的问题：

> X %>% group_by( Group ) %>% summarise( test = f(Var1) )
Calling f with vector 1 2
Calling f with vector 1 2
Calling f with vector 3 4 5
# A tibble: 2 × 2
   Group  test
  <fctr> <dbl>
1     G1   1.5
2     G2   4.0

为什么会发生这种情况？如何阻止summarise和summarise_each进行额外的通话？

（这是使用R版本3.3.0和dplyr版本0.5.0）

编辑：问题似乎与group_by和summarise / summarise_each之间的相互作用有关。没有分组，就不会进行额外的呼叫。此外，mutate和mutate_each不会遇到此问题。（这些调查结果为eddi和eipi10

Answer 1

尽管dplyr 0.5.0（2016-06-24发布）中仍然存在此问题，但它已在dplyr GitHub repro中修复。它是在2016-09-24制作的this commit修复的。我已经确认，当我在上一次提交时签出并构建版本时，我可以重现该问题，但是在从该一个或后续版本构建时不能。

（是的，在我找到它之前，我尝试了很多其他的。为什么我会这么长，以期获得想象中的互联网积分，我作为一个问题留给我的治疗师。）

特别是，在SEXP process_data(const Data& gdf)中的inst/include/dplyr/Result/CallbackProcessor.h函数中，请注意以下更改：

  CLASS* obj = static_cast<CLASS*>(this);
  typename Data::group_iterator git = gdf.group_begin();

  RObject first_result = obj->process_chunk(*git);
  ++git; // This line was added

和

  for (int i = 1; i < ngroups; ++git, ++i) { // changed from starting at i = 0
    RObject chunk = obj->process_chunk(*git);

[我添加的评论，不是实际来源的一部分]

dplyr summarize（）和summarise_each（）对提供的函数进行额外调用

1 个答案: