R中%%的时间复杂度;有没有办法让它像Python中的集合一样O(1)?

时间:2017-11-15 21:11:45

标签: r time-complexity complexity-theory

R中的%in%运算符检查是否存在其他内容,显然有点。但我对表现感到好奇。在Python中,搜索set或dict键的项是O(1)因为该集是哈希表,我想。但是在Python中搜索列表中的项目可能是具有n长度列表的O(n),因为它将逐个元素地搜索。那么%in%如何在R的不同数据类型的幕后工作?在向量中搜索因子dtype中的某些内容似乎需要花费5倍的时间而不是向量,但似乎%in%线性搜索向量。起初我认为因子数据类型可能就像Python中的一个集合,因为它们都会将某些内容减少到它的唯一值,但根本不会:https://www.tutorialspoint.com/r/r_data_types.htm。这是一些示例代码,因此您可以看到我对运行时的含义:

library(microbenchmark)
s <- seq(5000)
microbenchmark(1 %in% s, times = 100000)
# searching for a term further in the list takes longer
microbenchmark(4999 %in% s, times = 100000)
s <- as.factor(s)
# searching for something in a factor takes way longer than a vector
# I think because everything is converted to a character dtype
microbenchmark(4999 %in% s, times = 100000)

我的主要问题是:有没有办法在R中%%O(1)?一个相关的问题:Python中的set()数据类型是否等效(在R中)?

1 个答案:

答案 0 :(得分:2)

正如我们在评论中所讨论的那样, 是R中一个固有的类似集合的机制,尽管它确实有点hackish并且可能并不完全是预期的。 (这个hack的一些限制记录在hashmap包中。)

R中的环境是内部哈希值。这可以用于随机访问(读取和写入)的任意对象的存储。为了检查一些基准,我将生成一些类型的向量来证实您最初的关注点,并展示使用环境可以改进的基础。

我们首先会生成一些类似的数据,以各种方式排序以突出您提出的问题:

library(microbenchmark)
set.seed(2)
s1 <- seq(5000)
s2 <- rev(s1) # to highlight the bias you highlighted, since the vector is sorted
s3 <- sample(s1) # to shake things up a little
s4 <- as.character(s3) # comparison with character-based named in 'l' and 'e'

l <- list()
e <- new.env(parent = emptyenv())
for (i in s4) {
  assign(i, TRUE, envir = e)
  l[[i]] <- TRUE
}
head(names(l)) # unordered
# [1] "925"  "3512" "2866" "840"  "4716" "4713"

list在其对象中确实有正常性,它支持假设其对象哈希:

which(names(l) == "1")
# [1] 2291

环境没有这个:

e[[1]]
# Error in e[[1]] : wrong arguments for subsetting an environment

一些快速的成员资格测试:我使用逻辑来表示值,尽管这完全是任意的。 NULL以外的任何内容都足以满足我们的需求。我们将使用简单的!is.null(e[[...]])来测试特定成员资格:

!is.null(e[["1"]])
# [1] TRUE
!is.null(e[["10000"]])
# [1] FALSE
!is.null(l[["1"]])
# [1] TRUE
!is.null(l[["10000"]])
# [1] FALSE

microbenchmark(
  vec1 =  1  %in% s1,
  vec2 =  1  %in% s2,
  vec3 =  1  %in% s3,
  vec4 = "1" %in% s4,
  lst = is.null(l[["1"]]),
  env = is.null(e[["1"]]),
  times = 1000
)
# Warning in microbenchmark(vec1 = 1 %in% s1, vec2 = 1 %in% s2, vec3 = 1 %in%  :
#   Could not measure a positive execution time for 6 evaluations.
# Unit: nanoseconds
#  expr   min    lq     mean median    uq     max neval
#  vec1  5835  6929 12493.25   7294  9482 3214588  1000
#  vec2  9117  9847 16660.73  10212 12764 4081050  1000
#  vec3  7294  8388 19983.63   8752 10576 3274759  1000
#  vec4 11670 12400 15423.03  12764 14223   74394  1000
#   lst 20787 21517 24561.72  21881 22975  143317  1000
#   env     0     1   461.25    365   366   18235  1000

毫不奇怪,list表现不佳,虽然它似乎比矢量更好(在max情况下,相对没有意义)。同样不足为奇的是,基于我们声称环境使用内部设备,它表现得相当不错。它是 O(1)吗?

microbenchmark(
     samp5 = sapply(as.character(sample(5000, size =    5)), function(a) is.null(e[[a]])),
    samp50 = sapply(as.character(sample(5000, size =   50)), function(a) is.null(e[[a]])),
   samp500 = sapply(as.character(sample(5000, size =  500)), function(a) is.null(e[[a]])),
  samp5000 = sapply(as.character(sample(5000, size = 5000)), function(a) is.null(e[[a]]))
)
# Unit: microseconds
#      expr      min         lq        mean     median         uq       max neval
#     samp5   25.893    32.4565    49.58154    40.4795    58.3485   169.573   100
#    samp50  108.309   119.4310   156.45244   135.8410   167.3850   681.938   100
#   samp500  935.750  1023.2715  1265.29732  1073.9610  1172.6055  6841.985   100
#  samp5000 9410.008 10337.5520 11137.82968 10650.0765 11280.0485 15455.548   100

第一个samp5似乎需要更长时间。这并不令人惊讶,因为存在与sapply,采样和其他事物相关的开销。但是,剩余的行似乎与完成的样本数量相当。这表明某些基本集合操作确实是 O(1)

注意:我必须使用整个sapply(...)技巧,因为与矢量和列表不同,R的环境不允许使用矢量进行子集化。

e[[c("1")]]
# [1] TRUE
e[[c("1","10")]]
# Error in e[[c("1", "10")]] : 
#   wrong arguments for subsetting an environment

这是由hashmap制作的声明之一(并由其修复)。

额外信用:为了便于将环境用作一组,您可以使用简单的加法器和删除器:

newset <- function() new.env(parent = emptyenv())
setadd <- function(set, n) set[[n]] <- TRUE
setdel <- function(set, n) set[[n]] <- NULL
setcontains <- function(set, n) !is.null(set[[n]])
setmembers <- function(set) names(set)

e <- newset()
setcontains(e, "a")
# [1] FALSE
setadd(e, "a")
setcontains(e, "a")
# [1] TRUE
setmembers(e)
# [1] "a"
setdel(e, "a")
setcontains(e, "a")
# [1] FALSE

(Jeffrey Horner在此发表了类似但更广泛的博客文章:http://jeffreyhorner.tumblr.com/post/114524915928/hash-table-performance-in-r-part-i。)