重塑包:data.frame从wide到long

时间:2014-12-16 22:57:59

标签: r

使用以下数据

 library(reshape)
 P     <- c( "D" , "D" , "P" )
 a_0_2 <- c( "M" , "Y" , "M" )
 a_3_5 <- c( "M" , "M" , "Y" )
 n     <- c( 48  , 57  , 15  )
 df <- data.frame( P , a_0_2 , a_3_5 , n )

我想了解以下data.frame:

 P variable value nIDs
 D    a_0_2     M   48
 D    a_0_2     Y   57
 P    a_0_2     M   15
 D    a_3_5     M   48
 D    a_3_5     M   57
 P    a_3_5     Y   15

我尝试melt( df , id.vars = "P" )当然不会正确处理n变量:

   P variable value
 1 D    a_0_2     M
 2 D    a_0_2     Y
 3 P    a_0_2     M
 4 D    a_3_5     M
 5 D    a_3_5     M
 6 P    a_3_5     Y
 7 D        n  <NA>
 8 D        n  <NA>
 9 P        n  <NA>
 Warning message:
 In `[<-.factor`(`*tmp*`, ri, value = c(48, 57, 15)) :
   invalid factor level, NA generated

然而,使用直观的melt( df , id.vars = "P" , measure.vars = "n" )调用会产生

   P variable value
 1 D        n    48
 2 D        n    57
 3 P        n    15

远离目标。我错过了什么?感谢。

1 个答案:

答案 0 :(得分:4)

看起来你只需要这个

melt(df, id.vars = c("P", "n"))
#   P  n variable value
# 1 D 48    a_0_2     M
# 2 D 57    a_0_2     Y
# 3 P 15    a_0_2     M
# 4 D 48    a_3_5     M
# 5 D 57    a_3_5     M
# 6 P 15    a_3_5     Y

或使用较新的tidyr packge

library(tidyr)
gather(df, variable, value, a_0_2:a_3_5)
#   P  n variable value
# 1 D 48    a_0_2     M
# 2 D 57    a_0_2     Y
# 3 P 15    a_0_2     M
# 4 D 48    a_3_5     M
# 5 D 57    a_3_5     M
# 6 P 15    a_3_5     Y

如果我们假设df[2:3]不一定是因素(将stringsAsFactors = FALSE添加到OP data.frame函数),我们可以添加一个由@Thela使用基数R提出的好解决方案

data.frame(df[c(1, 4)], stack(df[2:3]))
#   P  n values   ind
# 1 D 48      M a_0_2
# 2 D 57      Y a_0_2
# 3 P 15      M a_0_2
# 4 D 48      M a_3_5
# 5 D 57      M a_3_5
# 6 P 15      Y a_3_5