使用列名称中的时间值重新整形R中的数据

时间:2016-05-20 17:31:43

标签: r database statistics reshape

我的数据框看起来像这样(简化):

     data1.time1 data1.time2 data2.time1 data2.time2 data3.time1 group
 1          1.53        2.01        6.49        5.22        3.46    A
 ...
 24         2.12        3.14        4.96        4.89        3.81    C

其中K ...在1..27中实际为dataK.timeT,而T在某些(但可能不是全部)为1..8。

我想将数据重新排列成K个数据帧,这样我就可以为每个K绘制三个A,B组和A组中的每个组的摘要数据(现在说平均值和平均值±标准偏差)。 C.也就是说,我想要27个图表,每个图表有三行,并且还标记了偏差。

一旦我重新排列数据,它应该很容易按组折叠,计算汇总统计数据等。但我不确定如何将数据转换为这种形式。我查看了reshape包,建议将其融合为键值存储格式并从那里重新排列,但它似乎不支持包含T值的列,就像我在这里一样。

这样做有好办法吗?我非常愿意使用R之外的其他东西来做这件事,因为我可以在转换后将结果导入R中。

2 个答案:

答案 0 :(得分:5)

在创建具有与您的结构类似的假数据后,我们将从宽格式转换为长格式,从而使整洁的格式变为“完整”。准备好使用ggplot2绘图的数据框。

library(reshape2)
library(ggplot2)
library(dplyr)

创建虚假数据

set.seed(194)
dat = data.frame(replicate(27*8, cumsum(rnorm(24*3))))

names(dat) = paste0(rep(paste0("data",1:27), each=8), ".", rep(paste0("time",1:8), 27))

dat$group = rep(LETTERS[1:3], each=24)

删除一些列,以便不同数据源的时间点数不同:

dat = dat[ , -c(2,4,9,43,56,78,100:103,115:116,134:136,202,205)]

从宽格式转换为长格式

datl = melt(dat, id.var="group")

将数据源和时间点拆分为单独的列:

datl$source = gsub("(.*)\\..*","\\1", datl$variable)
datl$time = as.numeric(gsub(".*time(.*)","\\1", datl$variable))

# Order data frame names by number (rather than alphabetically)
datl$source = factor(datl$source, levels=paste0("data",1:length(unique(datl$source))))

使用ggplot2

绘制数据
# Helper function for plotting standard deviation
sdFnc = function(x) {
  vals = c(mean(x) - sd(x), mean(x) + sd(x))
  names(vals) = c("ymin", "ymax")
  vals
}

pd = position_dodge(0.7)

ggplot(datl, aes(time, value, group=group, color=group)) + 
  stat_summary(fun.y=mean, geom="line", position=pd) +
  stat_summary(fun.data=sdFnc, geom="errorbar", width=0.4, position=pd) +
  stat_summary(fun.y=mean, geom="point", position=pd) +
  facet_wrap(~source, ncol=3) +
  theme_bw()

enter image description here

原始(不必要的复杂)重塑代码。 (注意,此代码将不再适用于更新的(假)数据集,因为时间列的数量不再一致):

# Convert data source from wide to long
datl = data.frame()
for (i in seq(1,27*8,8)) {

  tmp.dat = dat[, c(i:(i+7),grep("group",names(dat)))]
  tmp.dat$source = gsub("(.*)\\..*", "\\1", names(tmp.dat)[1])
  names(tmp.dat)[1:8] = 1:8

  #datl = rbind(datl, tmp.dat)
  datl = bind_rows(datl, tmp.dat)  # Updated based on comment
}

datl$source = factor(datl$source, levels=paste0("data",1:27))

# Convert time from wide to long
datl = melt(datl, id.var = c("source","group"), variable.name="time")

答案 1 :(得分:1)

可以使用dplyr执行类似的操作:

for(i in 1:K){ ## for 1:27
  my.data.ind <- paste0("data",i,"|group") ## "datai|group"
  one.month <- select(data, contains(my.data.ind) %>% ## grab cols that have these
                  group_by(group) %>% ## group by your group
                  summarise_each(funs(mean), funs(sd)) ## find mean for each col within each group
}

这应该为您留下一个3xT数据帧,该数据帧具有随时间变化的每个组的平均值T