Question

假设我有以下命名的数字向量：

a <- 1:8
names(a) <- rep(c('I', 'II'), each = 4)

如何将此向量转换为长度为2的列表（如下所示）？

a.list
# $I
# [1] 1 2 3 4
# $II
# [1] 5 6 7 8

请注意as.list(a)不是我想要的。我非常不满意（对于大型载体来说很慢）解决方案是：

names.uniq <- unique(names(a))
a.list <- setNames(vector('list', length(names.uniq)), names.uniq)
for(i in 1:length(names.uniq)) {
  names.i <- names.uniq[i]
  a.i <- a[names(a)==names.i]
  a.list[[names.i]] <- unname(a.i)
}

提前感谢您的帮助，德文

Answer 1

就像我在评论中所说的那样，您可以使用split来创建列表。

a.list <- split(a, names(a))
a.list <- lapply(a.list, unname)

单行将是

a.list <- lapply(split(a, names(a)), unname)
#$I
#[1] 1 2 3 4
#
#$II
#[1] 5 6 7 8

修改
然后，thelatemail在他的评论中简化了这一点。我用Devin King的方式计时，它不仅更简单，而且速度提高了25％。

a.list <- split(unname(a),names(a))

Answer 2

我建议查看擅长聚合大量数据的软件包，例如data.table软件包。使用data.table，您可以执行以下操作：

a <- 1:5e7
names(a) <- c(rep('I',1e7), rep('II',1e7), rep('III',1e7),
              rep('IV',1e7), rep('V',1e7))

library(data.table)
temp <- data.table(names(a), a)[, list(V2 = list(a)), V1]
a.list <- setNames(temp[["V2"]], temp[["V1"]])

以下是一些用于测试各种选项的函数：

myFun <- function(invec) {
  x <- data.table(names(invec), invec)[, list(V2 = list(invec)), V1]
  setNames(x[["V2"]], x[["V1"]])
}

rui1 <- function(invec) {
  a.list <- split(invec, names(invec))
  lapply(a.list, unname)
}

rui2 <- function(invec) {
  split(unname(invec), names(invec))
}

op <- function(invec) {
  names.uniq <- unique(names(invec))
  a.list <- setNames(vector('list', length(names.uniq)), names.uniq)
  for(i in 1:length(names.uniq)) {
    names.i <- names.uniq[i]
    a.i <- a[names(invec) == names.i]
    a.list[[names.i]] <- unname(a.i)
  }
  a.list
}

微基准标记的结果有10次重复：

library(microbenchmark)
microbenchmark(myFun(a), rui1(a), rui2(a), op(a), times = 10)
# Unit: milliseconds
#      expr       min        lq      mean    median       uq      max neval
#  myFun(a)  698.1553  768.6802  932.6525  934.6666 1056.558 1168.889    10
#   rui1(a) 2967.4927 3097.6168 3199.9378 3185.1826 3319.453 3413.185    10
#   rui2(a) 2152.0307 2285.4515 2372.9896 2362.7783 2426.821 2643.033    10
#     op(a) 2672.4703 2872.5585 2896.7779 2901.7979 2971.782 3039.663    10

另外，请注意，在测试不同的解决方案时，您可能需要考虑其他方案，例如，您希望有许多不同名称的情况。在这种情况下，您的for循环会显着减慢。例如，使用以下数据尝试上述函数：

set.seed(1)
b <- sample(100, 5e7, TRUE)
names(b) <- sample(c(letters, LETTERS, 1:100), 5e7, TRUE)

Answer 3

测试Rui Barradas＆＃39;解决方案与我在较大载体上的原始解决方案

  a <- 1:5e7
  names(a) <- c(rep('I',1e7), rep('II',1e7), rep('III',1e7), rep('IV',1e7), rep('V',1e7))

瑞＆＃39; S

st1 <- Sys.time()
 a.list <- split(a, names(a))
 a.list <- lapply(a.list, unname)
Sys.time() - st1
Time difference of 2.560906 secs

矿

st1 <- Sys.time()
names.uniq <- unique(names(a))
a.list <- setNames(vector('list', length(names.uniq)), names.uniq)
for(i in 1:length(names.uniq)) {
names.i <- names.uniq[i]
  a.i <- a[names(a)==names.i]
  a.list[[names.i]] <- unname(a.i)
}
Sys.time() - st1
Time difference of 2.712066 secs

thelatemail＆＃39; S

st1 <- Sys.time()
  a.list <- split(unname(a),names(a))
Sys.time() - st1
Time difference of 1.62851 secs

Answer 4

要处理未命名的向量，请使用：

vec_to_list <- function(vec) {
  if (is.null(names(vec))) names(vec) <- 1:length(vec)
  split(unname(vec), names(vec))
}

将命名向量转换为R中的列表

4 个答案: