我有两个数据框都有一个包含如下因素的列:
> head(test.data)
var0 var1 date store
1 109.5678 109.5678 1990-03-30 Store1
2 109.3009 108.4261 1990-06-30 Store1
3 108.8262 106.2517 1990-09-30 Store1
4 108.2443 108.6417 1990-12-30 Store1
5 109.5678 109.5678 1991-03-30 Store1
6 109.3009 108.4261 1991-06-30 Store1
> summary(test.data)
var0 var1 date store
Min. : -9.72 Min. : -2.297 Min. :1990-03-30 Store1 : 8
1st Qu.: 68.32 1st Qu.: 71.305 1st Qu.:1990-09-07 Store2 : 8
Median :102.19 Median :101.192 Median :1991-02-13 Store3 : 8
Mean :101.09 Mean :103.042 Mean :1991-02-13 Store4 : 8
3rd Qu.:151.22 3rd Qu.:151.940 3rd Qu.:1991-07-23 Store5 : 8
Max. :196.55 Max. :201.099 Max. :1991-12-30 Store6 : 8
(Other):48
>
> head(test.clusters)
store cluster
1 Store1 A
2 Store2 C
3 Store3 A
4 Store4 B
5 Store5 D
6 Store6 A
>
> summary(test.clusters)
store cluster
Store1 :1 A:5
Store2 :1 B:4
Store3 :1 C:2
Store4 :1 D:1
Store5 :1
Store6 :1
(Other):6
>
我想根据共享的test.data
向cluster
添加一列,其中包含每行store
。我目前正在使用双嵌套循环:
new_col <- rep(test.clusters$cluster[1], length(test.data$store))
for (i in seq(test.data$store)){
for (j in seq(test.clusters$store)){
if (test.data$store[i] == test.clusters$store[j]){
new_col[i] <- test.clusters$cluster[j]
break
}
}
}
test.data$cluster <- new_col
这是非常冗长,非常低效和坦率丑陋。在R?
中执行此操作的惯用方法是什么?答案 0 :(得分:8)
使用join
中的plyr
功能。它在内部使用匹配,因此应该快速(比合并快4-10倍)。
答案 1 :(得分:7)
使用merge
功能。
答案 2 :(得分:2)
我推荐match
。它会比merge
快得多。
它应该是这样的:
test.data$cluster <- test.clusters$cluster[match(test.data$store, test.clusters$store)]