R编程:提取行和相邻行

时间:2013-09-01 16:22:41

标签: r extract output rows

所以我在R中有2个数据集: 表1和表2。

这些是2个.CSV文件,具有相同的第一个列名称Date。 但是大多数日期都不同,但有些日期是相同的。

我想要做的是匹配Date列中两个表中相同的单元格,然后从包含该单元格的那一行开始,我想 在10个不同的表中返回它之前的五行和它之后的五行。 所以每一行都会转到另一个新的输出表。

基本上我想在之后的每个第二行表上运行回归,并在该表中使用其他一些列。

我在想使用head()和tail(),但我无法弄清楚索引部分到哪里开始..

谢谢你。 这是一个简单的例子。当表1中的第3行与表2中的第1行匹配时,我将如何获取匹配行下面的表1中的3行。

>table 1
>Date      price1  price2  price3  
>11/02/13   4.4        4.22    4.12  
>11/04/13   4.23       4.09    4.10
>12/01/13   4.01       4.27    4.14
>12/02/13   4.1        4.23    4.16
>12/02/13   4.65       4.23    4.17
>11/01/13   4.4        4.22    4.12
>11/07/13   4.23       4.09    4.10
>12/09/13   4.01       4.27    4.14
>12/12/13   4.1        4.23    4.16
>12/15/13   4.65       4.23    4.17

>table 2
>Date      price1  price2  price3
>12/01/13   2.4        2.22    9.12
>08/04/13   4.23       7.09    6.10
>12/01/13   1.01       6.27    6.14
>12/08/13   6.1        3.23    4.16
>12/05/13   4.65       2.23    3.17
>11/02/13   4.4        4.22    4.12
>07/04/13   4.23       4.09    4.10
>09/01/13   4.01       4.27    4.14
>01/02/13   4.1        4.23    4.16
>11/05/13   4.65       4.23    4.17

1 个答案:

答案 0 :(得分:0)

使用您提供的示例数据:

table1 <- read.table(header=TRUE,text="
Date      price1  price2  price3  
11/02/13   4.4        4.22    4.12  
11/04/13   4.23       4.09    4.10
12/01/13   4.01       4.27    4.14
12/02/13   4.1        4.23    4.16
12/02/13   4.65       4.23    4.17
11/01/13   4.4        4.22    4.12
11/07/13   4.23       4.09    4.10
12/09/13   4.01       4.27    4.14
12/12/13   4.1        4.23    4.16
12/15/13   4.65       4.23    4.17
")

table2 <- read.table(header=TRUE,text="
Date      price1  price2  price3
12/01/13   2.4        2.22    9.12
08/04/13   4.23       7.09    6.10
12/01/13   1.01       6.27    6.14
12/08/13   6.1        3.23    4.16
12/05/13   4.65       2.23    3.17
11/02/13   4.4        4.22    4.12
07/04/13   4.23       4.09    4.10
09/01/13   4.01       4.27    4.14
01/02/13   4.1        4.23    4.16
11/05/13   4.65       4.23    4.17
")

首先保存匹配的日期:

mydates <- merge(table1, table2, by="Date")$Date

现在编写一个辅助函数来获取给定表中的某些指定日期及其相邻行:

getneighbors <- function(table, x, neigh=5){
    r <- -neigh:neigh
    lines <- which(table[,1] %in% x)
    o <- outer(lines, r, `+`)
    a <- apply(o, 2, pmin, nrow(table))
    a <- apply(a, 2, pmax, 1)
    L <- lapply(seq(ncol(a)), function(j)table[a[,j],])
    names(L) <- gsub("-","_",paste0("Neigh",r))
    L
}

此函数创建一个数据框列表,其中每个数据框在table中具有x的相邻匹配项(使用table的第一列)。要获取的邻居数量由neigh指定,默认为5(向上和向下)。

请注意,仅通过加或减计算的邻居可能位于无效的行号,因此调用apply(..., pmin)apply(..., pmax)。我们假设行0或负的邻居实际上是第一行,超出表大小的行的邻居将被最后一行替换。

考虑到这一点,会有一些重复,特别是对于小样本数据:

> getneighbors(table1, mydates)

$Neigh_5
        Date price1 price2 price3
1   11/02/13    4.4   4.22   4.12
1.1 11/02/13    4.4   4.22   4.12

$Neigh_4
        Date price1 price2 price3
1   11/02/13    4.4   4.22   4.12
1.1 11/02/13    4.4   4.22   4.12

$Neigh_3
        Date price1 price2 price3
1   11/02/13    4.4   4.22   4.12
1.1 11/02/13    4.4   4.22   4.12

$Neigh_2
        Date price1 price2 price3
1   11/02/13    4.4   4.22   4.12
1.1 11/02/13    4.4   4.22   4.12

$Neigh_1
      Date price1 price2 price3
1 11/02/13   4.40   4.22   4.12
2 11/04/13   4.23   4.09   4.10

$Neigh0
      Date price1 price2 price3
1 11/02/13   4.40   4.22   4.12
3 12/01/13   4.01   4.27   4.14

$Neigh1
      Date price1 price2 price3
2 11/04/13   4.23   4.09   4.10
4 12/02/13   4.10   4.23   4.16

$Neigh2
      Date price1 price2 price3
3 12/01/13   4.01   4.27   4.14
5 12/02/13   4.65   4.23   4.17

$Neigh3
      Date price1 price2 price3
4 12/02/13    4.1   4.23   4.16
6 11/01/13    4.4   4.22   4.12

$Neigh4
      Date price1 price2 price3
5 12/02/13   4.65   4.23   4.17
7 11/07/13   4.23   4.09   4.10

$Neigh5
      Date price1 price2 price3
6 11/01/13   4.40   4.22   4.12
8 12/09/13   4.01   4.27   4.14

结果是一个列表,其中每个元素都命名为NeighXNeigh_X,分别指示下方的相邻行XX。默认情况下有11个元素,如果只需要10个元素,请忽略Neigh0,它代表与所指示的行完全匹配的行。

您可以将结果保存在列表对象中,例如L <- getneighbors(table1, mydates),然后使用L[["Neigh3"]]访问每个数据框。