如何使用R

时间:2017-01-20 01:07:13

标签: r

一系列数字。

seqNum <- sample(1:15, 30, replace = T)
[1] 10  7  6  5  4  1 15 11  7 15  1  2  3 14  8  3  5 10  8  3  14 8 14  3 14 12 15 12 10 14

定义“循环”:从序列中的第一个数字开始,两个重复数字之间的所有数字都被定义为循环。例如,上面给定序列中的第一个循环是“7 6 5 4 1 15 11”。从序列中删除它然后重复上一个方法以找到下一个循环 删除第一个循环后的序列变为:

10 15 1 2  3 14  8  3  5 10  8  3  14 8 14  3 14 12 15 12 10 14

第二个循环是“3 14 8” 删除第二个循环后的序列变为:

10 15 1 2 5 10  8  3  14 8 14  3 14 12 15 12 10 14

第三个循环是“10 15 1 2 5”。 删除第三个循环后的序列变为:

8  3  14 8 14  3 14 12 15 12 10 14

第四个循环是“8 3 14”。 删除第四个循环后的序列变为:

14 3 14 12 15 12 10 14

第五个循环是“14 12 15 12 10”。(始终使用2个最接近的重复数字) 删除第五个循环后的序列变为:

14 3

DONE。

注意:

  • “loop”必须包含至少3个数字

  • 如果

    ,则认为两个循环是相同的循环
    1. 包含相同的号码
    2. 相对顺序相同,例如循环“1 2 3 4”与循环“3 4 1 2”或“4 1 2 3”或“2 3 4 1”相同,但与循环“1 3 2不同” 4“或”2 1 3 4“等。

需要
查找给定序列中的所有循环,并给出每个唯一循环的计数。

期望的结果:

  count            loop
1     1 7-6-5-4-1-15-11
2     2          3-14-8
3     1     10-15-1-2-5
4     1  14-12-15-12-10

我知道这是一个很长的问题,但我会欣赏任何提示。谢谢!!

PS:这假设在非常长的数字序列上搜索循环,比如总数大约10 ^ 8,请使用样本(1:1024,100000,replace = T)进行测试。

2 个答案:

答案 0 :(得分:2)

以下代码将按预期找到并打印处理该示例的所有“循环”:

seqNum <- c(10, 7, 6, 5, 4, 1, 15, 11,  7, 15,  1,  2,  3, 14,  8,  3,  5, 10,  8,  3,  14, 8, 14,  3, 14, 12, 15, 12, 10, 14)
loops <- matrix(ncol = 2,nrow = 0, dimnames = list(numeric(0),c("count","loop")))

remove_loop <- function(seqNum) {
  ht <- new.env()
  for(j in 1:length(seqNum)) {
    i <- seqNum[j]
    key <- as.character(i)
    if(exists(key,envir=ht)) {
      lastIdx <- ht[[key]]
      loop <- seqNum[lastIdx:(j-1)]
      if(length(unique(loop)) > 2) {
        return(list(loop=loop,newSeqNum=seqNum[-(lastIdx:j)]))
      }
    }
    ht[[key]] <- j
  }
}

newSeqNum <- seqNum
repeat{
  l <- remove_loop(newSeqNum)
  newSeqNum <- l$newSeqNum
  if(length(l$loop)){
    print(l$loop)
  } else {
    break
  }
}

输出

[1]  7  6  5  4  1 15 11
[1]  3 14  8
[1] 10 15  1  2  5
[1]  8  3 14
[1] 14 12 15 12 10

它通过重复删除下一个循环来工作,即在剩余序列上调用函数remove_loop。函数remove_loop的工作原理如下:使用环境作为哈希表(变量ht),它跟踪每个号码遇到的最后一个索引。如果至少第二次看到一个数字(即在哈希表中有一个条目),则可能已经找到了“循环”。如果已经看到这个数字超过两个(比如说k)次,那么第一个(k-1)出现的数字确实不符合'循环'的标准。因此,只有当前和最后一次出现是相关的。当前出现在位置j,并且可以在哈希表中找到先前出现的位置。如果这个'循环'包含至少三个不同的数字,则找到'循环'。

编辑:以下代码计算不同循环的所有出现次数。循环以“规范”形式表示,将它们包裹起来,使它们以最小元素开始:

repr_loop <- function(l) {
  idx <- which.min(l)
  if(idx != 1) l <- c(l[idx:length(l)],l[1:(idx-1)])
  paste0(l,collapse="-")
}

loops <- data.frame(count=numeric(),loop=character())

newSeqNum <- seqNum
repeat{
  l <- remove_loop(newSeqNum)
  newSeqNum <- l$newSeqNum
  if(length(l$loop)){
    s <- repr_loop(l$loop)
    idx <- match(s,loops[,"loop"])
    if(!is.na(idx)) {
      loops[idx,"count"] <- loops[idx,"count"] + 1
    } else {
      loops <- rbind(loops,data.frame(count=1,loop=s))
    }
  } else {
    break
  }
}
loops

产生以下输出

> loops
  count            loop
1     1 1-15-11-7-6-5-4
2     2          3-14-8
3     1     1-2-5-10-15
4     1  10-14-12-15-12

答案 1 :(得分:1)

你可以尝试

您的数据

d <- c(10,7,6,5,4,1,15,11,7,15,1,2,3,14,8,3,5,10,8,3,14,8,14,3,14,12,15,12,10,14)

我在函数中包含了所有内容以便轻松使用代码。主要思想是,要搜索重复项,请检查第一次重复和第一次出现之间的长度。如果它是euqual或者长于3,则退出循环并提取段,然后更新向量并执行所有操作,只要没有进一步的重复(while)。我不得不说,当向量中同时出现两个循环段时可能会出现问题。

foo <- function(x){
 d1 <- x
 res <- NULL  # vector for the results
  while(any(duplicated(d1))){
   gr <- which(duplicated(d1))
      for(i in gr){
        # here the magic happens
        pos <- which(d1 == d1[i])
        gr_pos <- which(diff(pos) >= 3)
        pos <- pos[c(gr_pos,gr_pos+1)]
        if(pos[2]-pos[1] >= 3) break
      }
   # extract the "loop" sequences
   extract <- d1[seq(pos[1],pos[2])][-length(seq(pos[1],pos[2]))]
   res <-  append(res,paste(sort(extract), collapse = "-")) # save the loop
   d1 <- d1[-seq(pos[1],pos[2])] # update input vector
   if(length(d1) < 3) break # emergency stop
  }
 data.frame(table(res)) # output
}

foo(d)
              res Freq
1     1-2-5-10-15    1
2 1-4-5-6-7-11-15    1
3  10-12-12-14-15    1
4          3-8-14    2