Question

我有一个数据框，遵循以下长模式：

   Name          MedName
  Name1    atenolol 25mg
  Name1     aspirin 81mg
  Name1 sildenafil 100mg
  Name2    atenolol 50mg
  Name2   enalapril 20mg

并希望得到以下（我不在乎我是否可以通过这种方式命名列，只是想要这种格式的数据）：

   Name   medication1    medication2      medication3
  Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
  Name2 atenolol 50mg enalapril 20mg             NA

通过这个网站，我已经熟悉了reshape / reshape2软件包，并且已经尝试了多次尝试使其工作但迄今为止失败了。

当我尝试dcast(dataframe, Name ~ MedName, value.var='MedName')时，我只得到一堆列药物名称的标志（转置的值为1或0）示例：

 Name  atenolol 25mg  aspirin 81mg
Name1              1             1
Name2              0             0

我在融化数据集后尝试了dcast(dataset, Name ~ variable)，但这只是吐出以下内容（只计算每个人拥有的药物数量）：

 Name  MedName
Name1        3
name2        2

最后，我尝试融化数据，然后使用idvar="Name" timevar="variable"（其中所有只是中间名）进行重新整形，但是这似乎不是针对我的问题而构建的，因为如果有多个匹配项idvar，重塑只需要第一个MedName并忽略其余的。

有没有人知道如何使用重塑或其他R功能来做到这一点？我意识到可能有一种方法以更杂乱的方式执行此操作，其中一些for循环和条件基本上分割并重新粘贴数据，但我希望有一个更简单的解决方案。非常感谢你！

Answer 1

假设您的数据位于对象dataset中：

library(plyr)
## Add a medication index
data_with_index <- ddply(dataset, .(Name), mutate, 
                         index = paste0('medication', 1:length(Name)))    
dcast(data_with_index, Name ~ index, value.var = 'MedName')

##    Name   medication1    medication2      medication3
## 1 Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
## 2 Name2 atenolol 50mg enalapril 20mg             <NA>

Answer 2

在使用timevar之前，您始终可以生成唯一的reshape。在这里，我使用ave在“每个”名称中应用函数seq_along'。

test <- data.frame(
Name=c(rep("name1",3),rep("name2",2)),
MedName=c("atenolol 25mg","aspirin 81mg","sildenafil 100mg",
          "atenolol 50mg","enalapril 20mg")
)

# generate the 'timevar'
test$uniqid <- with(test, ave(as.character(Name), Name, FUN = seq_along))

# reshape!
reshape(test, idvar = "Name", timevar = "uniqid", direction = "wide")

结果：

   Name     MedName.1      MedName.2        MedName.3
1 name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
4 name2 atenolol 50mg enalapril 20mg             <NA>

Answer 3

使用data.table包，可以使用新的rowid函数轻松解决此问题：

library(data.table)
dcast(setDT(d1), 
      Name ~ rowid(Name, prefix = "medication"), 
      value.var = "MedName")

给出：

   Name    medication1     medication2       medication3
1 Name1  atenolol 25mg    aspirin 81mg  sildenafil 100mg
2 Name2  atenolol 50mg  enalapril 20mg              <NA>

另一种方法（在1.9.7版之前常用）：

dcast(setDT(d1)[, rn := 1:.N, by = Name], 
      Name ~ paste0("medication",rn), 
      value.var = "MedName")

给出相同的结果。

类似的方法，但现在使用dplyr和tidyr包：

library(dplyr)
library(tidyr)
d1 %>%
  group_by(Name) %>%
  mutate(rn = paste0("medication",row_number())) %>%
  spread(rn, MedName)

给出：

Source: local data frame [2 x 4]
Groups: Name [2]

    Name   medication1    medication2      medication3
  (fctr)         (chr)          (chr)            (chr)
1  Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
2  Name2 atenolol 50mg enalapril 20mg               NA

Answer 4

这似乎是一个相当普遍的问题，所以我在我的“splitstackshape”包中加入了一个名为getanID的函数。

以下是它的作用：

library(splitstackshape)
getanID(test, "Name")
#     Name          MedName .id
# 1: name1    atenolol 25mg   1
# 2: name1     aspirin 81mg   2
# 3: name1 sildenafil 100mg   3
# 4: name2    atenolol 50mg   1
# 5: name2   enalapril 20mg   2

由于“data.table”与“splitstackshape”一起加载，您可以访问dcast.data.table，因此您可以像使用@ mnel的示例一样继续。

dcast.data.table(getanID(test, "Name"), Name ~ .id, value.var = "MedName")
#     Name             1              2                3
# 1: name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
# 2: name2 atenolol 50mg enalapril 20mg               NA

该函数实际上由标识为创建“时间”列的组实现sequence(.N)。

Answer 5

@ thelatemail的解决方案与此类似。当我生成时间变量时，我使用rle以防我不能以交互方式工作，并且Name变量需要是动态的。

# start with your example data
x <- 
    data.frame(
        Name=c(rep("name1",3),rep("name2",2)),
        MedName=c("atenolol 25mg","aspirin 81mg","sildenafil 100mg",
            "atenolol 50mg","enalapril 20mg")
    )

# pick the id variable
id <- 'Name'

# sort the data.frame by that variable
x <- x[ order( x[ , id ] ) , ]

# construct a `time` variable on the fly
x$time <- unlist( lapply( rle( as.character( x[ , id ] ) )$lengths , seq_len ) )

# `reshape` uses that new `time` column by default
y <- reshape( x , idvar = id , direction = 'wide' )

# done
y

Answer 6

一个干净的解决方案涉及pivot_wider软件包版本tidyr中非常有用的1.1.0函数。这样，您还可以使用参数names_glue直接指定列名称。

library(tidyr)
library(dplyr)

dataframe %>% 
  group_by(Name) %>% 
  mutate(row_n = row_number()) %>% 
  pivot_wider(id_cols = Name, names_from = row_n, values_from = MedName, names_glue = "medication{row_n}")

输出

# A tibble: 2 x 4
# Groups:   Name [2]
#   Name  medication1   medication2    medication3     
#   <chr> <chr>         <chr>          <chr>           
# 1 Name1 atenolol 25mg aspirin 81mg   sildenafil 100mg
# 2 Name2 atenolol 50mg enalapril 20mg NA

Answer 7

这是一种较短的方式，利用unlist处理名称的方式：

library(dplyr)
df1 %>% group_by(Name) %>% do(as_tibble(t(unlist(.[2]))))
# # A tibble: 2 x 4
# # Groups:   Name [2]
#      Name      MedName1       MedName2         MedName3
#     <chr>         <chr>          <chr>            <chr>
#   1 name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
#   2 name2 atenolol 50mg enalapril 20mg             <NA>

Answer 8

具有tidyr和chop()的{{1}}解决方案。

unnest_wider()

自变量library(tidyr) df2 %>% chop(-Name) %>% unnest_wider(MedName, names_sep = "") # # A tibble: 2 x 4 # Name MedName1 MedName2 MedName3 # <chr> <chr> <chr> <chr> # 1 Name1 atenolol 25mg aspirin 81mg sildenafil 100mg # 2 Name2 atenolol 50mg enalapril 20mg NA是必需的；否则，新的列名称将为names_sep = ""，..1和..2。

从长到宽格式转换/重塑数据帧而不使用“timevar”

8 个答案: