在循环中使用kernlab包中的rbfdot表现不佳

时间:2012-01-06 16:00:46

标签: performance r

我的缓慢工作代码的简化示例(函数rbf来自kernlab包)需要加速:

install.packages('kernlab')       
library('kernlab')

rbf <- rbfdot(sigma=1)

test <- matrix(NaN,nrow=5,ncol=10)
for (i in 1:5) {
               for (j in 1:10) { test[i,j] <- rbf(i,j)}
               }

我已经尝试了outer()但它不起作用,因为rbf函数没有返回所需的长度(50)。我需要加快这个代码的速度,因为我有大量的数据。我已经读过,矢量化将是加速这一过程的圣杯,但我不知道如何。

你能指点我正确的方向吗?

2 个答案:

答案 0 :(得分:8)

如果rbf确实是调用rbfdot的返回值,则body(rbf)看起来像

{
    if (!is(x, "vector")) 
        stop("x must be a vector")
    if (!is(y, "vector") && !is.null(y)) 
        stop("y must a vector")
    if (is(x, "vector") && is.null(y)) {
        return(1)
    }
    if (is(x, "vector") && is(y, "vector")) {
        if (!length(x) == length(y)) 
            stop("number of dimension must be the same on both data points")
        return(exp(sigma * (2 * crossprod(x, y) - crossprod(x) - 
            crossprod(y))))
    }
}

由于大部分内容都是由检查函数组成的,crossprod简化了你只传入标量的时候,我认为你的函数简化为

rbf <- function(x, y, sigma = 1)
{
  exp(- sigma * (x - y) ^ 2)
}

对于可能的进一步加速,请使用compiler包(需要R-2.14.0或更高版本)。

rbf_loop <- function(m, n)
{
  out <- matrix(NaN, nrow = m, ncol = n)
  for (i in seq_len(m)) 
  {
    for (j in seq_len(n)) 
    { 
      out[i,j] <- rbf(i,j)
    }
  }
  out
)

library(compiler)
rbf_loop_cmp <- cmpfun(rbf_loop)

然后将rbf_loop_cmp(m, n)的时间与之前的时间进行比较。


简化步骤更容易反过来看。如果您expand (x - y) ^ 2得到x ^ 2 - 2 * x * y + y ^ 2,那就是rbf函数中的内容。

答案 1 :(得分:1)

在kernlab中使用函数kernelMatrix(), 它应该是几个数量级的几个 更快然后循环内核函数:

library(kernlab)

rbf <- rbfdot(sigma=1)

kernelMatrix(rbf, 1:5, 1:10)