我有以下两个表格:
df <- data.frame(eth = c("A","B","B","A","C"),ZIP1 = c(1,1,2,3,5))
Inc <- data.frame(ZIP2 = c(1,2,3,4,5,6,7),A = c(56,98,43,4,90,19,59), B = c(49,10,69,30,10,4,95),C = c(69,2,59,8,17,84,30))
eth ZIP1 ZIP2 A B C
A 1 1 56 49 69
B 1 2 98 10 2
B 2 3 43 69 59
A 3 4 4 30 8
C 5 5 90 10 17
6 19 4 84
7 59 95 39
我想在df数据框中创建一个变量Inc,对于每个观察,该值是观察的eth和ZIP的交集。在我的例子中,它将导致:
eth ZIP1 Inc
A 1 56
B 1 49
B 2 10
A 3 43
C 5 17
一个循环或非常强大的力量可以解决它,但是我的数据集需要时间,我正在寻找一种更微妙的方式,可能使用data.table。在我看来,这是一个非常标准的问题,我很抱歉,如果是,我无法为这个问题制定一个精确的标题(你可能已经注意到了......)也许是为什么我没有找到任何类似的问题在论坛上搜索..
谢谢!
答案 0 :(得分:6)
当然,可以在data.table中完成:
library(data.table)
setDT(df)
df[ melt(Inc, id.var="ZIP2", variable.name="eth", value.name="Inc"),
Inc := i.Inc
, on=c(ZIP1 = "ZIP2","eth") ]
此“合并分配”操作的语法为X[i, Xcol := expression, on=merge_cols]
。
您可以自行运行i = melt(Inc, id.var="ZIP", variable.name="eth", value.name="Inc")
部分以查看其工作原理。在合并中,来自i
的列可以引用i.*
前缀。
另外......
setDT(df)
setDT(Inc)
df[, Inc := Inc[.(ZIP1), eth, on="ZIP2", with=FALSE], by=eth]
这是基于类似的想法。 The package vignettes是开始使用这种语法的好地方。
答案 1 :(得分:6)
我们可以使用row/column
索引
df$Inc <- Inc[cbind(match(df$ZIP1, Inc$ZIP2), match(df$eth, colnames(Inc)))]
df
# eth ZIP1 Inc
#1 A 1 56
#2 B 1 49
#3 B 2 10
#4 A 3 43
#5 C 5 17
答案 2 :(得分:5)
这个怎么样?
library(reshape2)
merge(df, melt(Inc, id="ZIP2"), by.x = c("ZIP1", "eth"), by.y = c("ZIP2", "variable"))
ZIP1 eth value
1 1 A 56
2 1 B 49
3 2 B 10
4 3 A 43
5 5 C 17
答案 3 :(得分:5)
另一种选择:
library(dplyr)
library(tidyr)
Inc %>%
gather(eth, value, -ZIP2) %>%
left_join(df, ., by = c("eth", "ZIP1" = "ZIP2"))
答案 4 :(得分:2)
我的解决方案(可能看起来很尴尬)
for (i in 1:length(df$eth)) {
df$Inc[i] <- Inc[as.character(df$eth[i])][df$ZIP[i],]
}