如何将变量传递给spark_apply()中调用的函数?

时间:2017-09-21 17:30:52

标签: r apache-spark sparklyr

我希望能够将额外的变量传递给sparklyr中由spark_apply调用的函数。

例如:

# setup
library(sparklyr)
sc <- spark_connect(master='local', packages=TRUE)
iris2 <- iris[,1:(ncol(iris) - 1)]
df1 <- sdf_copy_to(sc, iris2, repartition=5, overwrite=T)

# This works fine
res <- spark_apply(df1, function(x) kmeans(x, 3)$centers)

# This does not
k <- 3
res <- spark_apply(df1, function(x) kmeans(x, k)$centers)

作为一个丑陋的解决方法,我可以通过将值保存到R包中然后引用它们来做我想要的。即

> myPackage::k_equals_three == 3
[1] TRUE

# This also works
res <- spark_apply(df1, function(x) kmeans(x, myPackage::k_equals_three)$centers)

有更好的方法吗?

2 个答案:

答案 0 :(得分:2)

我没有设置测试火花,但你能创建一个闭包吗?

kmeanswithk <- function(k) {force(k); function(x) kmeans(x, k)$centers})
k <- 3
res <- spark_apply(df1, kmeanswithk(k))

基本上只需创建一个函数来返回一个函数,然后使用它。

答案 1 :(得分:1)

spark_apply()现在有了一个context参数,您可以将其他对象/变量/等传递给环境。

res <- spark_apply(df1, function(x, k) {
  kmeans(x, k)$cluster},
  context = {k <- 3})

k <- 3
res <- spark_apply(df1, function(x, k) {
  kmeans(x, k)$cluster},
  context = {k})

R文档没有包含带有context参数的任何示例,但是您可以通过阅读PR:https://github.com/rstudio/sparklyr/pull/1107了解更多信息。