我有异常格式的数据。当前,变量名/列标题应该是什么行值,而变量名/列标题应该是什么行值。
也就是说,我有一个这样的数据框:
id <- seq(1, 5, 1)
good <- c('', 'Q4', 'Q4, Q2', '', '')
ok <- c('Q3, Q1', '', '', 'Q2', '')
bad <- c('', 'Q2', 'Q2', '', '')
data <- as.data.frame(cbind(id, good, ok, bad))
cols <- c('good', 'ok', 'bad')
data[cols] <- lapply(data[cols], as.character)
我想将其转换为如下所示的数据框:
id <- seq(1,5,1)
Q1 <- c('ok', '', '', '', '')
Q2 <- c('', 'bad', 'good, bad', 'ok', '') # Yes, it is possible to get multiple,
# conflicting responses to a question from one id.
Q3 <- c('ok', '', '', '', '')
Q4 <- c('', 'good', 'good', '', '')
data_new <- as.data.frame(cbind(id, Q1, Q2, Q3, Q4))
cols <- c('Q1', 'Q2', 'Q3', 'Q4')
data_new[cols] <- lapply(data_new[cols], as.character)
一些问题:
当前行值不能仅直接转置为列标题,因为有时在单个单元格中记录多个条目,并且列标题中应该只记录一个值(例如,我不想要在更新的数据框中标记为“ Q2,Q4”的列标题。
另一方面,当列标题移动为行值时,将出现 有时需要在同一单元格中有多个条目。例如,ID 3的变量Q2下的条目在更新的数据框中应显示为“好,不好”。
首选dplyr解决方案,但也欢迎使用其他软件包/基于R的答案。
答案 0 :(得分:4)
这是gather/spread
的一种方法。我们gather
将数据从“宽”到“长”,filter
根据“ val”中的空白元素移出行,通过在定界符(,
处拆分)扩展数据在“ val”中,按照“ id”,“ val”,paste
的元素组成,并spread
返回“宽”格式
library(tidyverse)
data %>%
gather(key, val, -id) %>%
filter(val != "") %>%
separate_rows(val) %>%
group_by(id = factor(id, levels = 1:5), val) %>%
summarise(key = toString(key)) %>%
spread(val, key, fill = "", drop = FALSE)
# A tibble: 5 x 5
# Groups: id [5]
# id Q1 Q2 Q3 Q4
# <fct> <chr> <chr> <chr> <chr>
#1 1 ok "" ok ""
#2 2 "" bad "" good
#3 3 "" good, bad "" good
#4 4 "" ok "" ""
#5 5 "" "" "" ""
注意:格式基于print
的{{1}}格式。如果要更改为tibble
,请在末尾使用data.frame