所以我在R中有2个数据集: 表1和表2。
这些是2个.CSV文件,具有相同的第一个列名称Date。 但是大多数日期都不同,但有些日期是相同的。
我想要做的是匹配Date列中两个表中相同的单元格,然后从包含该单元格的那一行开始,我想 在10个不同的表中返回它之前的五行和它之后的五行。 所以每一行都会转到另一个新的输出表。
基本上我想在之后的每个第二行表上运行回归,并在该表中使用其他一些列。
我在想使用head()和tail(),但我无法弄清楚索引部分到哪里开始..
谢谢你。 这是一个简单的例子。当表1中的第3行与表2中的第1行匹配时,我将如何获取匹配行下面的表1中的3行。>table 1
>Date price1 price2 price3
>11/02/13 4.4 4.22 4.12
>11/04/13 4.23 4.09 4.10
>12/01/13 4.01 4.27 4.14
>12/02/13 4.1 4.23 4.16
>12/02/13 4.65 4.23 4.17
>11/01/13 4.4 4.22 4.12
>11/07/13 4.23 4.09 4.10
>12/09/13 4.01 4.27 4.14
>12/12/13 4.1 4.23 4.16
>12/15/13 4.65 4.23 4.17
>table 2
>Date price1 price2 price3
>12/01/13 2.4 2.22 9.12
>08/04/13 4.23 7.09 6.10
>12/01/13 1.01 6.27 6.14
>12/08/13 6.1 3.23 4.16
>12/05/13 4.65 2.23 3.17
>11/02/13 4.4 4.22 4.12
>07/04/13 4.23 4.09 4.10
>09/01/13 4.01 4.27 4.14
>01/02/13 4.1 4.23 4.16
>11/05/13 4.65 4.23 4.17
答案 0 :(得分:0)
使用您提供的示例数据:
table1 <- read.table(header=TRUE,text="
Date price1 price2 price3
11/02/13 4.4 4.22 4.12
11/04/13 4.23 4.09 4.10
12/01/13 4.01 4.27 4.14
12/02/13 4.1 4.23 4.16
12/02/13 4.65 4.23 4.17
11/01/13 4.4 4.22 4.12
11/07/13 4.23 4.09 4.10
12/09/13 4.01 4.27 4.14
12/12/13 4.1 4.23 4.16
12/15/13 4.65 4.23 4.17
")
table2 <- read.table(header=TRUE,text="
Date price1 price2 price3
12/01/13 2.4 2.22 9.12
08/04/13 4.23 7.09 6.10
12/01/13 1.01 6.27 6.14
12/08/13 6.1 3.23 4.16
12/05/13 4.65 2.23 3.17
11/02/13 4.4 4.22 4.12
07/04/13 4.23 4.09 4.10
09/01/13 4.01 4.27 4.14
01/02/13 4.1 4.23 4.16
11/05/13 4.65 4.23 4.17
")
首先保存匹配的日期:
mydates <- merge(table1, table2, by="Date")$Date
现在编写一个辅助函数来获取给定表中的某些指定日期及其相邻行:
getneighbors <- function(table, x, neigh=5){
r <- -neigh:neigh
lines <- which(table[,1] %in% x)
o <- outer(lines, r, `+`)
a <- apply(o, 2, pmin, nrow(table))
a <- apply(a, 2, pmax, 1)
L <- lapply(seq(ncol(a)), function(j)table[a[,j],])
names(L) <- gsub("-","_",paste0("Neigh",r))
L
}
此函数创建一个数据框列表,其中每个数据框在table
中具有x
的相邻匹配项(使用table
的第一列)。要获取的邻居数量由neigh
指定,默认为5(向上和向下)。
请注意,仅通过加或减计算的邻居可能位于无效的行号,因此调用apply(..., pmin)
和apply(..., pmax)
。我们假设行0或负的邻居实际上是第一行,超出表大小的行的邻居将被最后一行替换。
考虑到这一点,会有一些重复,特别是对于小样本数据:
> getneighbors(table1, mydates)
$Neigh_5
Date price1 price2 price3
1 11/02/13 4.4 4.22 4.12
1.1 11/02/13 4.4 4.22 4.12
$Neigh_4
Date price1 price2 price3
1 11/02/13 4.4 4.22 4.12
1.1 11/02/13 4.4 4.22 4.12
$Neigh_3
Date price1 price2 price3
1 11/02/13 4.4 4.22 4.12
1.1 11/02/13 4.4 4.22 4.12
$Neigh_2
Date price1 price2 price3
1 11/02/13 4.4 4.22 4.12
1.1 11/02/13 4.4 4.22 4.12
$Neigh_1
Date price1 price2 price3
1 11/02/13 4.40 4.22 4.12
2 11/04/13 4.23 4.09 4.10
$Neigh0
Date price1 price2 price3
1 11/02/13 4.40 4.22 4.12
3 12/01/13 4.01 4.27 4.14
$Neigh1
Date price1 price2 price3
2 11/04/13 4.23 4.09 4.10
4 12/02/13 4.10 4.23 4.16
$Neigh2
Date price1 price2 price3
3 12/01/13 4.01 4.27 4.14
5 12/02/13 4.65 4.23 4.17
$Neigh3
Date price1 price2 price3
4 12/02/13 4.1 4.23 4.16
6 11/01/13 4.4 4.22 4.12
$Neigh4
Date price1 price2 price3
5 12/02/13 4.65 4.23 4.17
7 11/07/13 4.23 4.09 4.10
$Neigh5
Date price1 price2 price3
6 11/01/13 4.40 4.22 4.12
8 12/09/13 4.01 4.27 4.14
结果是一个列表,其中每个元素都命名为NeighX
或Neigh_X
,分别指示下方的相邻行X
或X
。默认情况下有11个元素,如果只需要10个元素,请忽略Neigh0
,它代表与所指示的行完全匹配的行。
您可以将结果保存在列表对象中,例如L <- getneighbors(table1, mydates)
,然后使用L[["Neigh3"]]
访问每个数据框。