使用滞后差计算时dplyr崩溃

时间:2015-07-24 13:35:25

标签: r dplyr

我有一个数据框400万行和140万个不同的分组变量值。样本DF如下所示:

> df
        date        id
1 2015-06-25   4333864
2 2015-06-25   3867895
3 2015-06-25   4333866
4 2015-06-25   4333868
5 2015-06-29   2900522
6 2015-06-29   3609093

使用此命令执行滞后日期差异会导致8 GB内存MAC上的R崩溃:

df %>% group_by(id) %>% mutate(dayDiff = date - lag(date))

这个dplyr是否内存饥饿?任何其他有效的方法来完成我需要的东西?

以下是我正在使用的 dplyr 的版本:

Package: dplyr
Type: Package
Version: 0.4.1

日期框架具有以下变量类型:

> str(df)
'data.frame':   6 obs. of  2 variables:
 $ date: Date, format: "2014-07-01" "2014-07-01" "2014-07-01" ...
 $ id  : num  1793096 2019424 1869572 1869573 1774661 ...

0 个答案:

没有答案