你好,希望我可以简单地解释一下。我知道这可以通过循环来完成,但这需要永远,我需要将此分析作为网页的一部分来完成,因此某种类型的应用函数应该可以更好地工作。
我有2个数据框。数据框A具有每个的不同“锚点”和类别值的列表(这些是来自已执行的ddply的加权平均值)。
anchor ecomax ecomin volume price runtime
1 9482 0.12981362 0.5714286 0.12981362 0.1324330 1.00000000
2 9488 0.01458662 0.5544864 0.01458662 0.2967270 0.04166667
3 9549 0.09734398 0.5721429 0.09734398 0.1219376 1.00000000
4 9574 0.00902656 0.5505136 0.00902656 0.1455307 0.14652568
5 9575 0.00902656 0.5505136 0.00902656 0.1460919 0.14652568
6 9576 0.07608863 0.5613563 0.07608863 0.1114813 1.00000000
数据帧B是相同类别值的较大数据帧(暂时忽略名称),但每个锚点都有多个条目。
anchor ecomax_max_med ecomin_min_med volume_med price_med run_time_minimum_med
1 9482 0.12981362 0.5714286 0.12981362 0.1120882 1.00000000
2 9482 0.12981362 0.5714286 0.12981362 0.1686777 1.00000000
3 9488 0.01552049 0.5550000 0.01552049 0.2925363 0.04166667
4 9488 0.01292292 0.5535714 0.01292292 0.3041928 0.04166667
5 9549 0.09734398 0.5721429 0.09734398 0.1238916 1.00000000
6 9549 0.09734398 0.5721429 0.09734398 0.1184564 1.00000000
我想基于其匹配锚从其平均值(数据框A)中减去B的类别值;即B的前2行(锚9482)将取A与A的第一行的差异(锚9482的意思),接下来的2行B(锚9488)将与A的下一行(锚9488的意思)取差异, 等等。
最终结果是使新数据帧C的每个行/列(除了锚点)成为数据帧B中的值与其对应的锚点均值(数据帧A)之间的差异。我希望这是相当直截了当的;它可以通过冗长的循环轻松完成。我猜这需要“匹配”或“通过”的某种组合,但我不确定,这非常令人沮丧。帮助!
答案 0 :(得分:2)
这是一个data.table
解决方案。
它的工作原理是将A
和B
合并为anchor
(设置为关键字)。然后它评估我们创建的表达式e
list(ecomax_diff = ecomax_max_med - ecomax, ecomin_diff = ecomin_min_med - ecomin, volume_diff = volume_med - volume, price_diff = price_med - price, runtime_diff = run_time_minimum_med - runtime)
使用mapply
,sprintf
和parse
。
解决方案取决于将每个data.table的相应列名称传递给mapply。
library(data.table)
DA <- data.table(A)
DB <- data.table(B)
setkey(DA, 'anchor')
setkey(DB, 'anchor')
.calls <- mapply(sprintf, as.list(names(DA)[-1]),
as.list(names(DB)[-1]), as.list(names(DA)[-1]),
MoreArgs = list(fmt = '%s_diff = %s - %s'))
.e <- parse(text = sprintf('list(%s)', paste(.calls, collapse =', ')))
DA[DB, eval(.e)]
## anchor ecomax_diff ecomin_diff volume_diff price_diff runtime_diff
## 1: 9482 0.00000000 0.0000000 0.00000000 -0.0203448 0
## 2: 9482 0.00000000 0.0000000 0.00000000 0.0362447 0
## 3: 9488 0.00093387 0.0005136 0.00093387 -0.0041907 0
## 4: 9488 -0.00166370 -0.0009150 -0.00166370 0.0074658 0
## 5: 9549 0.00000000 0.0000000 0.00000000 0.0019540 0
## 6: 9549 0.00000000 0.0000000 0.00000000 -0.0034812 0
# calculate the difference between the respective columns (merged appropriately
DIFF <- DB[, names(DB)[-1],with = F] - DA[DB][, names(DA)[-1], with = F]
# combine with the anchor column from DB
DC <- cbind(DB[,list(anchor)],DIFF)
# rename with the names from A (otherwise they will have the same as DB
setnames(DC, names(DA))
# It creates the correct output !
DC
## anchor ecomax ecomin volume price runtime
## 1: 9482 0.00000000 0.0000000 0.00000000 -0.0203448 0
## 2: 9482 0.00000000 0.0000000 0.00000000 0.0362447 0
## 3: 9488 0.00093387 0.0005136 0.00093387 -0.0041907 0
## 4: 9488 -0.00166370 -0.0009150 -0.00166370 0.0074658 0
## 5: 9549 0.00000000 0.0000000 0.00000000 0.0019540 0
## 6: 9549 0.00000000 0.0000000 0.00000000 -0.0034812 0
-.data.table
忽略未来版本中的字符列答案 1 :(得分:1)
datmer <- merge(datA, datB)
str(datmer)
#------------------
'data.frame': 6 obs. of 11 variables:
$ anchor : int 9482 9482 9488 9488 9549 9549
$ ecomax : num 0.1298 0.1298 0.0146 0.0146 0.0973 ...
$ ecomin : num 0.571 0.571 0.554 0.554 0.572 ...
$ volume : num 0.1298 0.1298 0.0146 0.0146 0.0973 ...
$ price : num 0.132 0.132 0.297 0.297 0.122 ...
$ runtime : num 1 1 0.0417 0.0417 1 ...
$ ecomax_max_med : num 0.1298 0.1298 0.0155 0.0129 0.0973 ...
$ ecomin_min_med : num 0.571 0.571 0.555 0.554 0.572 ...
$ volume_med : num 0.1298 0.1298 0.0155 0.0129 0.0973 ...
$ price_med : num 0.112 0.169 0.293 0.304 0.124 ...
$ run_time_minimum_med: num 1 1 0.0417 0.0417 1 ...
datmer2 <- cbind(datmer[,1, drop=FALSE],
as.matrix(datmer[, 2:6]) - as.matrix(datmer[7:11]) )
datmer2
#--------
anchor ecomax ecomin volume price runtime
1 9482 0.00000000 0.0000000 0.00000000 0.0203448 0
2 9482 0.00000000 0.0000000 0.00000000 -0.0362447 0
3 9488 -0.00093387 -0.0005136 -0.00093387 0.0041907 0
4 9488 0.00166370 0.0009150 0.00166370 -0.0074658 0
5 9549 0.00000000 0.0000000 0.00000000 -0.0019540 0
6 9549 0.00000000 0.0000000 0.00000000 0.0034812 0
如果你想按照@mnel这样做的顺序(B-A)使用差异,你也会得到与第二个数据帧相同的列名:
str( cbind(datmer[,1, drop=FALSE], as.matrix(datmer[7:11]) - as.matrix(datmer[2:6]) ) )
'data.frame': 6 obs. of 6 variables:
$ anchor : int 9482 9482 9488 9488 9549 9549
$ ecomax_max_med : num 0 0 0.000934 -0.001664 0 ...
$ ecomin_min_med : num 0 0 0.000514 -0.000915 0 ...
$ volume_med : num 0 0 0.000934 -0.001664 0 ...
$ price_med : num -0.02034 0.03624 -0.00419 0.00747 0.00195 ...
$ run_time_minimum_med: num 0 0 0 0 0 0