在r中映射(对齐)较小到较大的序列

时间:2012-06-03 13:15:37

标签: r sorting dataset alignment

我有以下框架数据集:

master <- data.frame (namest = c("A","B", "C","D", "E", "F"), 
 position =c( 0, 10, 20, 25, 30, 35))
master
      namest position
    1      A        0
    2      B       10
    3      C       20
    4      D       25
    5      E       30
    6      F       35

这是有地方名称和位置的更大的地图(比如路线图)。现在在第二次调查中我们有更小的子集(很多,这里只有3个)。

subset1 <- data.frame (namest = c("I", "A", "ii", "iii", "B"), 
 position = c(0, 10, 12, 14, 20))  
subset1
  namest position
1      I        0
2      A       10
3     ii       12
4    iii       14
5      B       20

subset2 <- data.frame (namest = c("E", "vii", "F"), position = c(0, 3,5))
 subset2
  namest position
1      E        0
2    vii        3
3      F        5

subset3 <- data.frame (namest = c("D", "vi", "v", "C", "iv"), 
   position = c(0, 2, 3, 5, 8))
subset3
  namest position
1      D        0
2     vi        2
3      v        3
4      C        5
5     iv        8

您可以看到每个子集都有两个常用的名称,例如,subset3中的D和C.

现在我想结合这些子集来制作更详细的主人。意味着新名称将位于新地图中。看到一些子集(参见subset3)与master相比具有相反的顺序。

因此预期的输出是:

subsetalign <- data.frame(subsett = c(rep ("A-B", nrow(subset1)),
rep("C-D", nrow(subset3)), 
rep("E-F", nrow(subset2))), namest =  c(c("I", "A", "ii", "iii", "B"), 
rev (c("D", "vi", "v", "C", "iv")),c("E", "vii", "F")), 
position = c(subset1$position, rev (subset3$position), subset2$position))

 subsetalign
   subsett namest position
1      A-B      I        0
2      A-B      A       10
3      A-B     ii       12
4      A-B    iii       14
5      A-B      B       20
6      C-D     iv        8
7      C-D      C        5
8      C-D      v        3
9      C-D     vi        2
10     C-D      D        0
11     E-F      E        0
12     E-F    vii        3
13     E-F      F        5

输出过程可以看作是(我不是要创建这样的数字,此时,只是为了更好地解释):

enter image description here

编辑: 由于两件事情,它不是简单的rbind:

(a)子集根据其命令名称在主文件中的排列方式进行排序。 例如,子集1(A-B)+子集3(C-D)+子集2(E-F),因为主设备中的顺序是A-B-C-D-E-F

(b)此外,如果子集的顺序与主顺序相反,则应颠倒它们。 在子集3中,namest的顺序是“D” - “vi” - “v” - “C” - “iv”,但是在主D中出现在C之后,所以这个sustet 3应该在绑定之前反转。

1 个答案:

答案 0 :(得分:2)

假设子集在列表中

subsets <- list(subset1, subset2, subset3)

主人中锚点的位置是

idx <- lapply(subsets, function(x, y) match(x$namest, y$namest), master)

每个子集的方向是

orientation <- sapply(idx, function(elt) unique(diff(elt[!is.na(elt)])))

主人的位置是

position <- sapply(idx, function(elt) min(elt, na.rm=TRUE))

子集可以订购subsets[order(position)],必要时可以反转

updt <- Map(function(elt, dir) {
    if (dir == -1)
        elt[rev(seq_len(nrow(elt))),] 
   else elt
}, subsets[order(position)], orientation[order(position)])

rbind编辑在一起,do.call(rbind, updt)。这假设master中的所有区间都只表示一次。