我有一个dplyr
数据框,包含100k +行和~200列。大约有15列包含Excel格式的日期值(自1900年1月1日以来的天数),它们的列名包含date
字符串,这使得数据框的子集非常容易。
library(dplyr)
x <- data.frame(date1 = 45000+ 500*rnorm(100),
date2 = 50000+ 500*rnorm(100),
var1 = 50 * rnorm(100),
var2 = 100 + 20 * rnorm(100))
> x %>% head
date1 date2 var1 var2
1 44952.83 49432.88 8.125523 125.95802
2 44331.47 49231.76 -34.814162 117.26881
3 44597.69 49651.91 27.747881 108.45787
4 45113.50 49802.87 24.584569 83.84904
5 46212.14 49972.59 72.444414 80.61595
6 45753.38 50074.57 -34.927552 127.70018
date_cols <- x %>% select(contains('date', ignore.case=T)) %>% names
> date_cols
[1] "date1" "date2"
我想在不更改其他列的情况下将这些日期列更改为实际的R
日期时间。我无法弄清楚如何仅更新数据框的date_cols
子集:
x %>% select_(.dots = date_cols) %>%
mutate_each(funs(as.Date(., origin="1900-01-01"))) %>%
head
date1 date2
1 2023-01-28 2035-05-05
2 2021-05-17 2034-10-16
3 2022-02-07 2035-12-10
4 2023-07-08 2036-05-09
5 2026-07-11 2036-10-26
6 2025-04-08 2037-02-05
我尝试过以下无效的方法:
x %>% select_(.dots = date_cols) <- x %>% select_(.dots = date_cols) %>%
mutate_each(funs(as.Date(., origin="1900-01-01")))
我想有一种更好的方法可以“#r;”#34;一旦发生突变,原始数据框没有date_cols
子集的日期列。
答案 0 :(得分:3)
如评论@alistaire,您可以使用mutate_at
仅转换那些date
列并保持其余数据框不变,这样您就可以避免将原始数据框与子集绑定:
library(dplyr)
muX <- x %>% mutate_at(vars(contains('date')), funs(as.Date(., origin="1900-01-01")))
head(muX)
# date1 date2 var1 var2
# 1 2021-11-09 2038-10-20 44.524710 86.15957
# 2 2020-06-04 2037-08-04 31.402905 94.74633
# 3 2023-12-22 2038-03-06 31.600929 85.90605
# 4 2020-05-08 2037-01-02 7.140777 82.80565
# 5 2025-03-25 2038-07-30 -54.913577 100.83949
# 6 2021-02-18 2034-06-20 28.616670 93.92246
同样根据?mutate_at
:
summarise_each()和mutate_each()是旧的变体 将来弃用。
最好习惯这些新的API。