使用R中的多个标题行来重塑数据

时间:2019-06-07 14:21:32

标签: r excel tidyr readr readxl

                Julie                           Joe                
                Measurement 1   Measurement 2   Measurement 1   Measurement 2
Part Number 1   33              32              33              31
Part Number 2   34              31              33              32
Part Number 3   33              31              30              31

如何将这个 messy Excel表转换为整齐的格式以在R中使用?我可以利用spread()gather()之类的阅读器功能,但这似乎需要更高的技巧。这是我对Excel数据框的最佳重构,供您使用。请随意对其进行修改,以更好地说明问题。

library(tidyverse)
messy <- data.frame(
  " " = c(" ", "Part Number 1", "Part Number 2", "Part Number 3"), 
  Julie = c("Measurement 1", 33, 34, 33),
  Julie = c("Measurement 2", 32, 31, 31),
  Joe = c("Measurement 1", 33, 33, 30),
  Joe = c("Measurement 2", 31, 32, 31))

我愿意尝试使用readr或tidyr的开发版本。新的pack()unpack()等功能似乎很有用。另外,似乎其他SO尝试/解决方案也不是我在寻找的1234

1 个答案:

答案 0 :(得分:2)

棘手的部分是获取正确的列名称,然后执行gatherseparate,这听起来您已经很熟悉了。通常,我不喜欢按数字选择行,但是在这种情况下,我认为如果您以这种方式可靠地从Excel中读取数据是有道理的。

注意:如果一个人的名字中包含.,则最后一步将失败。

library(tidyverse)

less_messy <- messy %>%
  mutate_all(as.character) %>% 
  set_names(c("Part",
             paste(names(.)[2:ncol(.)],
                   .[1, 2:ncol(.)],
                   sep = "-"))) %>%
  `[`(2:nrow(.), ) %>%
  gather("key", "value", contains("Measurement")) %>%
  separate("key", c("person", "measurement"), sep = "-") %>%
  mutate_at("person", ~ stringr::str_replace(.x, "\\..*",""))

less_messy
#>             Part person   measurement value
#> 1  Part Number 1  Julie Measurement 1    33
#> 2  Part Number 2  Julie Measurement 1    34
#> 3  Part Number 3  Julie Measurement 1    33
#> 4  Part Number 1  Julie Measurement 2    32
#> 5  Part Number 2  Julie Measurement 2    31
#> 6  Part Number 3  Julie Measurement 2    31
#> 7  Part Number 1    Joe Measurement 1    33
#> 8  Part Number 2    Joe Measurement 1    33
#> 9  Part Number 3    Joe Measurement 1    30
#> 10 Part Number 1    Joe Measurement 2    31
#> 11 Part Number 2    Joe Measurement 2    32
#> 12 Part Number 3    Joe Measurement 2    31

数据

略有变化,因为我注意到您显示的内容与测量编号代码之间的差异:

messy <- data.frame(
  " " = c(" ", "Part Number 1", "Part Number 2", "Part Number 3"), 
  Julie = c("Measurement 1", 33, 34, 33),
  Julie = c("Measurement 2", 32, 31, 31),
  Joe = c("Measurement 1", 33, 33, 30),
  Joe = c("Measurement 2", 31, 32, 31))