R中的“Unnesting”数据帧

时间:2016-01-07 18:04:18

标签: r unnest

我有以下data.frame

df <- data.frame(id=c(1,2,3), 
                 first.date=as.Date(c("2014-01-01", "2014-03-01", "2014-06-01")), 
                 second.date=as.Date(c("2015-01-01", "2015-03-01", "2015-06-1")),
                 third.date=as.Date(c("2016-01-01", "2017-03-01", "2018-06-1")),
                 fourth.date=as.Date(c("2017-01-01", "2018-03-01", "2019-06-1")))

> df

  id first.date second.date third.date fourth.date
1  1 2014-01-01  2015-01-01 2016-01-01  2017-01-01
2  2 2014-03-01  2015-03-01 2017-03-01  2018-03-01
3  3 2014-06-01  2015-06-01 2018-06-01  2019-06-01

每行代表三个时间段;即时间跨度分别在first.datesecond.datesecond.datethird.date以及third.datefourth.date之间。

我想,由于缺少更好的词,不需要数据帧来获取它:

  id  StartDate    EndDate
1  1 2014-01-01 2015-01-01
2  1 2015-01-01 2016-01-01
3  1 2016-01-01 2017-01-01
4  2 2014-03-01 2015-03-01
5  2 2015-03-01 2017-03-01
6  2 2017-03-01 2018-03-01
7  3 2014-06-01 2015-06-01
8  3 2015-06-01 2018-06-01
9  3 2018-06-01 2019-06-01

我一直在使用unnest包中的tidyr函数,但我得出的结论是,我认为这不是我真正想要的。

有什么建议吗?

2 个答案:

答案 0 :(得分:4)

您可以按如下方式尝试tidyr / dplyr:

require(shiny)
require(ggplot2)
require(forecast)
require(TTR)

shinyServer(function(input, output, session){

  set.seed(123)

  predset <- reactive({
    tmp <- data.frame(time = 1:100, sales = round(runif(100, 150, 879)) )
    tmp.mean <- HoltWinters(x=tmp$sales, alpha = input$alpha, beta = FALSE,gamma=FALSE)
    tmp.pred <- data.frame(predict(tmp.mean,n.ahead = input$h, prediction.interval = TRUE), time = tmp[nrow(tmp), "time"] + 1:input$h)  
    list(tmp = tmp, tmp.pred = tmp.pred)
  })

  output$es1 <- renderPlot({

    tmp <- predset()$tmp
    tmp.pred <- predset()$tmp.pred

    y <- ggplot(tmp, aes(time, sales)) + 
      geom_line() +   
      geom_line(data=tmp.pred, aes(y=upr),color="red") +  
      geom_line(data=tmp.pred, aes(y=fit),color="blue") +
      geom_line(data=tmp.pred, aes(y=lwr),color="red") +
      xlab("Days") + 
      ylab("Sales Quantity")+ 
      ggtitle("title")
    y })

  output$infoes <- renderDataTable({ 
    predset()$tmp.pred
  })
})

您可以通过添加以下内容来消除每个ID组中的最后一行:

library(tidyr)
library(dplyr)
df %>% gather(DateType, StartDate, -id) %>% select(-DateType) %>% arrange(id) %>% group_by(id) %>% mutate(EndDate = lead(StartDate))

到上面的管道。

答案 1 :(得分:3)

我们可以使用data.table。我们将'data.frame'转换为'data.table'(setDT(df)),然后将melt数据集转换为long格式,将shifttype='lead'一起使用按'id'分组,然后删除NA元素。

library(data.table)
na.omit(melt(setDT(df), id.var='id')[, shift(value,0:1, type='lead') , id])
#   id         V1         V2
#1:  1 2014-01-01 2015-01-01
#2:  1 2015-01-01 2016-01-01
#3:  1 2016-01-01 2017-01-01
#4:  2 2014-03-01 2015-03-01
#5:  2 2015-03-01 2017-03-01
#6:  2 2017-03-01 2018-03-01
#7:  3 2014-06-01 2015-06-01
#8:  3 2015-06-01 2018-06-01
#9:  3 2018-06-01 2019-06-01

可以使用setnames步骤中的shift或更早版本更改列名称。