Question

我有一个dplyr数据框，包含100k +行和~200列。大约有15列包含Excel格式的日期值（自1900年1月1日以来的天数），它们的列名包含date字符串，这使得数据框的子集非常容易。

library(dplyr)

x <- data.frame(date1 = 45000+ 500*rnorm(100),
           date2 = 50000+ 500*rnorm(100),
           var1 = 50 * rnorm(100),
           var2 = 100 + 20 * rnorm(100))

> x %>% head
     date1    date2       var1      var2
1 44952.83 49432.88   8.125523 125.95802
2 44331.47 49231.76 -34.814162 117.26881
3 44597.69 49651.91  27.747881 108.45787
4 45113.50 49802.87  24.584569  83.84904
5 46212.14 49972.59  72.444414  80.61595
6 45753.38 50074.57 -34.927552 127.70018

date_cols <- x %>% select(contains('date', ignore.case=T)) %>% names
> date_cols
[1] "date1" "date2"

我想在不更改其他列的情况下将这些日期列更改为实际的R日期时间。我无法弄清楚如何仅更新数据框的date_cols子集：

x %>% select_(.dots = date_cols) %>% 
      mutate_each(funs(as.Date(., origin="1900-01-01"))) %>% 
      head

       date1      date2
1 2023-01-28 2035-05-05
2 2021-05-17 2034-10-16
3 2022-02-07 2035-12-10
4 2023-07-08 2036-05-09
5 2026-07-11 2036-10-26
6 2025-04-08 2037-02-05

我尝试过以下无效的方法：

x %>% select_(.dots = date_cols) <- x %>% select_(.dots = date_cols) %>% 
  mutate_each(funs(as.Date(., origin="1900-01-01")))

我想有一种更好的方法可以“＃r;”＃34;一旦发生突变，原始数据框没有date_cols子集的日期列。

Answer 1

如评论@alistaire，您可以使用mutate_at仅转换那些date列并保持其余数据框不变，这样您就可以避免将原始数据框与子集绑定：

library(dplyr)
muX <- x %>% mutate_at(vars(contains('date')), funs(as.Date(., origin="1900-01-01")))

head(muX)
#        date1      date2       var1      var2
# 1 2021-11-09 2038-10-20  44.524710  86.15957
# 2 2020-06-04 2037-08-04  31.402905  94.74633
# 3 2023-12-22 2038-03-06  31.600929  85.90605
# 4 2020-05-08 2037-01-02   7.140777  82.80565
# 5 2025-03-25 2038-07-30 -54.913577 100.83949
# 6 2021-02-18 2034-06-20  28.616670  93.92246

同样根据?mutate_at：

summarise_each（）和mutate_each（）是旧的变体将来弃用。

最好习惯这些新的API。

使用mutate_each更新df的子集

1 个答案: