长到宽 - 重复列

时间:2015-10-14 22:57:24

标签: r dplyr tidyr

我在这个网站和谷歌上搜索了Tidyr和Dplyr标签大约两天,最后决定发布沮丧情绪....

我有以下数据框:

Name      Date   Sheets    Location    Weekday_vs_weekend    Cost
Jake    Aug 28    2          House            Weekday        .18
Jake    Aug 28    1          House            Weekday        .09
Kobe    Aug 28    3          Park             Weekend        .27
Kobe    Aug 28    2          Park             Weekend        .18
Jake    Aug 29    1          Library          Weekend        .09
Jordan  Aug 29    8          Library          Weekend        .72
Jordan  Aug 29    4          Library          Weekday        .36

我希望将日期变量转换为列(我可以使用spread()执行此操作,通过aggregate()提供总成本和工作表的总和,使用工作表列的PER总和作为在将日期变量转换为列之后要使用的值,然后对日期列中的每个日期重复使用剩余变量。

Name    Aug 28   Cost  Location    WkDay_WkEnd    Aug 29  Cost   Location    WkDay_WkEnd
Jake      3      27      House       Weekday         1    .09    Library       Weekday 
Kobe      5      45      Park        Weekday        NA     NA       NA           NA
Jordan    NA     NA       NA           NA           12    1.08   Library       Weekend 

1 个答案:

答案 0 :(得分:3)

这是使用data.table包的可能方法。虽然我没看到你将如何使用这么宽的格式。

这里的想法是对数字列求和,然后对非数字运行unique,然后在两者之间进行简单连接

在此类数据集上使用tidyr的主要问题是spread没有fun.aggregate属性

library(data.table) # V 1.9.6+
indx <- sapply(df[names(df)[-(1:2)]], is.numeric)

DT1 <- dcast(setDT(df), 
       Name ~ Date, 
       value.var = names(df)[-(1:2)][indx],
       sum,
       fill = NA)

DT2 <- dcast(df, 
       Name ~ Date, 
       value.var = names(df)[-(1:2)][!indx],
       unique,
       fill = NA)

DT1[DT2, on = "Name"]
#      Name Sheets_sum_Aug 28 Sheets_sum_Aug 29 Cost_sum_Aug 28 Cost_sum_Aug 29 Location_unique_Aug 28 Location_unique_Aug 29
# 1:   Jake                 3                 1            0.27            0.09                  House                Library
# 2: Jordan                NA                12              NA            1.08                     NA                Library
# 3:   Kobe                 5                NA            0.45              NA                   Park                     NA
#    Weekday_vs_weekend_unique_Aug 28 Weekday_vs_weekend_unique_Aug 29
# 1:                          Weekday                          Weekend
# 2:                               NA                          Weekday
# 3:                          Weekend                               NA