从随机整数区间中选择具有特定帧内间长度的整数区间

时间:2011-12-07 10:40:50

标签: r

这里,我有一个一维整数空间(由它们的开始和结束定义的随机区间组成)。我想选择具有特定帧内长度的后续整数区间。

整数间隔表示一组连续递增的整数,由begin integer和end integer定义。初始集合中的某些区间完全包含在其他区间中或与其他区间部分重叠。

我使用以下假人描述我的问题。

(1)数据(整数空间,其开头和结尾定义的整数区间)我有,

integer.space <- data.frame(
                     begin=c(1,5,6,15,31,51,102), 
                     end  =c(7,9,13,21,49,52,108)
                 )

(2)我想要的是选择内部长度为3且长度为2的后续整数区间,并将所选区间输出为开始和结束。在这个选择中,我想尽可能多地选择更多的整数区间。

begin, end\n
1,3\n
6,8\n
11,13\n
16,18\n
31,33\n
36,38\n
41,43\n
46,48\n
102,104\n

2 个答案:

答案 0 :(得分:1)

部分步骤:我认为您首先要定义连续序列。您没有在测试用例中添加的一个条件是完全重叠的序列。

> ints2 <- ints2[c(1:3,3,4:7),]
> ints2[4,] <- c(8,10)

require(IRanges) # from BioConductor repository
x <- IRanges(start = ints2$begin, width=1+ints2$end-ints2$begin)
asNormalIRanges(x)
#--------------
NormalIRanges of length 5
    start end width
[1]     1  13    13
[2]    15  21     7
[3]    31  49    19
[4]    51  52     2
[5]   102 108     7

进一步的进展:要在重叠范围内生成2,3,2,3,2,3 ...的序列,您可以使用:

# c(start, cumsum( rep(c(2,3), 1+(end-start)%/%5)

但是当你“超越”​​结尾“时,你需要修剪序列:

seqcand <- c(cumsum(c(31, rep(c(2,3), 1+(49-31)%/%5))), 49)
seqcand[ 1: (min(which(seqcand > 49, arr.ind=TRUE))-1)]
# [1] 31 33 36 38 41 43 46 48

答案 1 :(得分:1)

我会分几步完成:

1)将integer.space减少到非重叠间隔。

2)创建一个区间集合,并移动它们,使它们从整数空间的不相交片段的起始点开始:

intra <- 3
inter <- 2
intervals <- data.frame(begin=seq(from=min(integer.space$begin),to=max(integer.space$end),by=intra+inter))
intervals$end <- intervals$begin + inter
for (k in 2:nrow(integer.space)) {
  # overlaps the start of this component?
  shift <- (intervals$begin>integer.space$end[k-1]) & (intervals$begin<integer.space$begin[k]) 
  if (any(shift)) {
    shift.ind <- min(which(shift))
    intervals[shift.ind:nrow(intervals),] <- intervals[shift.ind:nrow(intervals),] + integer.space$begin[k] - intervals$begin[shift.ind]
  }
}

3)删除位于整数空间之外的那些

goodbegins <- sapply(intervals$begin, function (x) { 
    any( (x>=integer.space$begin) & (x<=integer.space$end) )
  } )
goodends <- sapply(intervals$end, function (x) { 
    any( (x>=integer.space$begin) & (x<=integer.space$end) )
  } )
intervals <- intervals[goodbegins&goodends,]

intervals