Question

我有一张表（d.tab），其中包含调查中的问答对。其中一些是单选答案，一些是多项选择。我想从数值中查找单选答案的文本值。为此，我有一个查找表（d.lookup）。

我尝试merge这些，但它有点难看，因为我现在必须过滤掉value != answer_id所有的行。有没有比这更漂亮的方法，可能使用plyr或dplyr或tidyr？

tab = '
question_id question_type   subject value
1   single-choice   1   1
2   multiple-choice 1   2
3   single-choice   1   2
1   single-choice   2   2
2   multiple-choice 2   3,4
3   single-choice   2   2
'

lookup = '
question_id answer_id   answer_text
1   1   female
1   2   male
3   1   no
3   2   yes
'

d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)

merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)

我不想对multiple-choice行执行任何操作，只需更新原始数据框，将value替换为d.tab的{{1}}中的实际文本answer_text匹配answer_id。

我知道我能做到：

value

但是这给了我一个新的专栏merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)，原来的answer_text仍在那里，我不需要。

Answer 1

您在问题中拨打了merge()。剩下的就是您使用单选答案过滤行并选择除value之外的所有列。使用dplyr，可以按如下方式完成：

library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  merge(d.lookup, by.x = c("question_id", "value"),
        by.y = c("question_id", "answer_id")) %>%
  select(-value)

第二行包含因子变量value到数字的显式转换。这很重要，因为将因子转换为数字可能会导致奇怪的结果。我将在下面添加关于此主题的几行。

请注意，dplyr还附带了自己的函数来替换merge。如果你的桌子很大，你会发现它们更有效率。使用left_join中的dplyr，解决方案为：

library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  left_join(d.lookup,
            by = c("question_id" = "question_id",
                   "value" = "answer_id")) %>%
  select(-value)

所以这里有关于我承诺的因素的评论。因子的问题是它们实际上是整数，其中每个整数值都有一个与之关联的标签。当您使用as.numeric()将因子天真地转换为数字时，您将获得与标签关联的整数。几乎可以肯定，你的数据会遇到这个问题，这就是原因。

我创建了一个模仿数据的因子变量：

values <- factor(c("1", "2", "3,4", "3", "4"))

现在我扔掉第三个值（"3,4"）并转换为数字：

as.numeric(values[-3])
## [1] 1 2 3 5

这可能不是你所期望的。原因是数字1到5与我们上面定义的五个级别相关联。如果要获取与标签匹配的数字，则需要先转换为字符：

as.numeric(as.character(values[-3]))
## [1] 1 2 3 4

所以，即使merge()在某处将因子转换为数字，我也不会依赖它以你想要的方式进行。因此，您应该明确地进行转换。

Answer 2

data.table 的替代解决方案：

library(data.table)

# converting to datatables & setting the 'answer_id' to character
setDT(d.tab)
setDT(d.lookup)[, answer_id := as.character(answer_id)]

# join 'd.tab' with 'd.lookup' and update 'value' by reference
d.tab[d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")]

给出：

   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2    3,4
6:           3   single-choice       2    yes

正如@Stibu已经提到的，分割具有多个值的行可能更好。使用 splitstackshape 包中的cSplit函数的示例：

library(splitstackshape)
cSplit(d.tab, "value", sep=",", 
       direction="long", 
       type.convert = FALSE)[d.lookup, 
                             value := answer_text, 
                             on = c("question_id", "value"="answer_id")]

# or everything in 'data.table'
d.tab[, lapply(.SD, function(x) unlist(tstrsplit(x, ','))), setdiff(names(d.tab),"value")
      ][d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")][]

两者都给出了：

   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2      3
6:           2 multiple-choice       2      4
7:           3   single-choice       2    yes

根据其他数据框映射替换某些行中的值

2 个答案: