Question

考虑以下数据框：

TEST <- structure(list(Value = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA), 
  Select = structure(c(2L, 1L, 3L, 2L, 2L, 1L, 1L,
  2L, 1L, 1L, 3L, 3L), .Label = c("A", "B", "C"), class = "factor"),
  A = c(5L, 5L, 4L, 3L, 4L, 3L, 5L, 3L, 3L, 4L, 5L, 4L), 
  B = c(10L, 8L, 7L, 6L, 3L, 8L, 8L, 7L, 8L, 9L, 11L, 8L), 
  C = c(0L, 1L, 3L, 2L, 0L, 3L, 0L, 2L, 0L, 1L, 1L, 0L)), 
  .Names = c("Value", "Select", "A", "B", "C"), 
  row.names = c(NA, -12L), 
  class = "data.frame")

我想基于Select列从A，B和C列的列中有效地逐行分配Value列。

例如，在第1行中，我希望Value等于B列中的元素 - 即Value [1] = 10.

我目前的方法是使用for循环：

for( idx in 1:nrow(TEST) ) {
  TEST$Value[idx] <- TEST[ idx, as.character(TEST$Select[idx]) ]
}

这导致了所需的输出：

    Value Select A  B C
 1     10      B 5 10 0
 2      5      A 5  8 1
 3      3      C 4  7 3
 4      6      B 3  6 2
 5      3      B 4  3 0
 6      3      A 3  8 3
 7      5      A 5  8 0
 8      7      B 3  7 2
 9      3      A 3  8 0
 10     4      A 4  9 1
 11     1      C 5 11 1
 12     0      C 4  8 0

有更有效或替代方法吗？我觉得这是某种merge（）或表连接类型操作。

P.S。我不太清楚如何描述这个操作 - 任何有关更好的问题/描述的建议也欢迎。

Answer 1

我会使用矩阵索引和match。这种方法是矢量化的，因此比for或apply循环给你快得多：

L <- c("A", "B", "C")
TEST$Value <- TEST[L][cbind(seq_len(nrow(TEST)), match(TEST$Select, L))]

如果您不熟悉矩阵索引，则会在?"["：

中记录

第三种形式的索引是通过一个数字矩阵，每个维度都有一列：索引矩阵的每一行然后选择一个数组元素，结果是一个向量

从行选择器列选择的其他列的集合中设置列值（执行查找）

1 个答案: