我试图计算R中数据帧的最小范围。数据框如下所示:
+-----+--------------+-----------+------+------+
| Key | DaysToEvent | PriceEUR | Pmin | Pmax |
+-----+--------------+-----------+------+------+
| AAA | 120 | 50 | 50 | 50 |
| AAA | 110 | 40 | 40 | 50 |
| AAA | 100 | 60 | 40 | 60 |
| BBB | ... | | | |
+-----+--------------+-----------+------+------+
所以范围最低价格(Pmin
)保留该关键字的最低价格,直至该时间点(DaysToEvent
)。
这是我的实施:
for (i in 1:nrow(data)){
currentRecord <- data[i,]
if(currentRecord$Key != currentKey) {
# New key detected - reset pmin and pmax
pmin <- 100000
pmax <- 0
currentKey <- currentRecord$Key
}
if(currentRecord$PriceEUR < pmin) {
pmin <- currentRecord$PriceEUR
}
if(currentRecord$PriceEUR > pmax) {
pmax <- currentRecord$PriceEUR
}
currentRecord$Pmin <- pmin
currentRecord$Pmax <- pmax
# This line seems to be killing my performance
# but otherwise the data variable is not updated in
# global space
data[i,] <- currentRecord
}
这有效 - 但真的很慢,只有每秒几个。它之所以有效,是因为我对数据框进行了排序,如data = data[order(data$Key, -data$DaysToEvent), ]
。这样做的原因是因为我希望得到nlog(n)
的Big-O用于排序,而n
用于for循环。所以我以为我会飞过这些数据,但我并不是全部 - 需要几个小时。
如何让它更快?
之前的方法来自我的同事 - 这里是伪:
for (i in 1:nrow(data)) {
...
currentRecord$Pmin <- data[subset on the key[find the min value of the price
where DaysToEvent > currentRecord$DaysToEvent]]
...
}
也有效 - 但我认为这个功能的顺序更高。 n^2log(n)
如果我正确并需要数天。所以我以为我会在那么重要的时候改进。
所以我tried to get my head around了解各种*apply
,by
函数,当然还有你真正想要使用的函数。
但是 - 如果我使用by()
然后拆分密钥。让我非常接近。但是,我无法绕过如何获得最小/最大范围。
我试图在功能范式中思考,但我陷入了困境。任何帮助表示赞赏。
答案 0 :(得分:4)
[原始答案:dplyr]
您可以使用dplyr
包解决此问题:
library(dplyr)
d %>%
group_by(Key) %>%
mutate(Pmin=cummin(PriceEUR),Pmax=cummax(PriceEUR))
# Key DaysToEvent PriceEUR Pmin Pmax
# 1 AAA 120 50 50 50
# 2 AAA 110 40 40 50
# 3 AAA 100 60 40 60
# 4 BBB 100 50 50 50
其中d
应该是您的数据集:
d <- data.frame(Key=c('AAA','AAA','AAA','BBB'),DaysToEvent = c(120,110,100,100),PriceEUR = c(50,40,60,50), Pmin = c(50,40,40,30), Pmax = c(50,50,60,70))
[更新:data.table]
另一种方法是使用data.table
,其表现非常出色:
library(data.table)
DT <- setDT(d)
DT[,c("Pmin","Pmax") := list(cummin(PriceEUR),cummax(PriceEUR)),by=Key]
DT
# Key DaysToEvent PriceEUR Pmin Pmax
# 1: AAA 120 50 50 50
# 2: AAA 110 40 40 50
# 3: AAA 100 60 40 60
# 4: BBB 100 50 50 50
[更新2:基础R]
如果出于某种原因你只想使用基数R,那么这是另一种方法:
d$Pmin <- unlist(lapply(split(d$PriceEUR,d$Key),cummin))
d$Pmax <- unlist(lapply(split(d$PriceEUR,d$Key),cummax))