例如,当我使用dplyr
语法时使用mutate
,我可以等到喜欢结果并开始我的数据操作而无需进行分配,然后我可以进行实验。但是在执行操作时,data.table
似乎覆盖了原始数据帧,如果改变主意,则必须重新加载数据并重新开始。使用管道时,我经常在下一个管道之前运行代码,以查看一切是否正常...
library(data.table, warn.conflicts = FALSE)
#> Warning: package 'data.table' was built under R version 3.6.1
library(dplyr, warn.conflicts = FALSE)
#> Warning: package 'dplyr' was built under R version 3.6.1
df <- as.data.table(mtcars)
# dplyr version
mtcars %>%
as_tibble() %>%
mutate(am = 2*am)
#> # A tibble: 32 x 11
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 21 6 160 110 3.9 2.62 16.5 0 2 4 4
#> 2 21 6 160 110 3.9 2.88 17.0 0 2 4 4
#> 3 22.8 4 108 93 3.85 2.32 18.6 1 2 4 1
#> 4 21.4 6 258 110 3.08 3.22 19.4 1 0 3 1
#> 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
#> 6 18.1 6 225 105 2.76 3.46 20.2 1 0 3 1
#> 7 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
#> 8 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
#> 9 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
#> 10 19.2 6 168. 123 3.92 3.44 18.3 1 0 4 4
#> # ... with 22 more rows
# here i will still have my original dataframe mtcars.
df[, am := 2*am]
head(df)
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> 1: 21.0 6 160 110 3.90 2.620 16.46 0 2 4 4
#> 2: 21.0 6 160 110 3.90 2.875 17.02 0 2 4 4
#> 3: 22.8 4 108 93 3.85 2.320 18.61 1 2 4 1
#> 4: 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
#> 5: 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
#> 6: 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
df[cyl ==6, am := 2*am]
head(df)
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> 1: 21.0 6 160 110 3.90 2.620 16.46 0 4 4 4
#> 2: 21.0 6 160 110 3.90 2.875 17.02 0 4 4 4
#> 3: 22.8 4 108 93 3.85 2.320 18.61 1 2 4 1
#> 4: 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
#> 5: 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
#> 6: 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
由reprex package(v0.3.0)于2019-07-11创建
所以在这里,如果我只想用data.table
添加一个过滤器,我将再次将am
与2乘以...这是data.table
的工作方式吗?有没有办法不覆盖数据帧?还是我害怕犯错误时应该总是复印?