Spark闭包参数绑定

时间:2015-10-17 18:43:32

标签: scala apache-spark

我在Scala中使用Apache Spark。

尝试使用来自第二个RDD的数据操作一个RDD时遇到问题。我试图将第二个RDD作为参数传递给对第一个RDD“映射”的函数,但似乎在该函数上创建的闭包绑定了该值的未初始​​化版本。

以下是一段更简单的代码,显示了我遇到的问题类型。 (我最初遇到麻烦的真实例子是更大,更难以理解)。

我真的不了解Spark闭包的参数绑定规则。

我真正想要的是如何使用另一个RDD操作一个RDD的基本方法或模式(之前在其他地方构建过)。

在下面的代码中,调用Test1.process(sc)将失败并在findSquare中使用空指针访问(因为闭包中绑定的第二个arg未初始化)

object Test1 {

  def process(sc: SparkContext) {
    val squaresMap = (1 to 10).map(n => (n, n * n))
    val squaresRDD = sc.parallelize(squaresMap)

    val primes = sc.parallelize(List(2, 3, 5, 7))

    for (p <- primes) {
      println("%d: %d".format(p, findSquare(p, squaresRDD)))
    }
  }

  def findSquare(n: Int, squaresRDD: RDD[(Int, Int)]): Int = {
    squaresRDD.filter(kv => kv._1 == n).first._1
  }
}

2 个答案:

答案 0 :(得分:4)

您遇到的问题与闭包或RDD无关,与普遍看法相反,are serializable

它只是打破了一个基本的Spark规则,它规定你不能从另一个动作或转换中触发一个动作或转换*并且已经多次询问了这个问题的不同变体。

要明白为什么会这样,你必须考虑架构:

  • "Computer Science"在驱动程序上管理
  • 转换中发生的一切都在工人身上执行。每个工人只能访问自己的部分数据,并且不与其他工人进行沟通**。

如果要使用多个RDD的内容,则必须使用其中一种组合RDD的转换,例如SparkContextjoincartesianzip。< / p>

你最有可能(我不确定为什么你传递元组并只使用这个元组的第一个元素)想要使用广播变量:

union

或笛卡儿:

val squaresMapBD = sc.broadcast(squaresMap)

def findSquare(n: Int): Seq[(Int, Int)] = {
  squaresMapBD.value
    .filter{case (k, v) => k == n}
    .map{case (k, v) => (n, k)}
    .take(1)
}

primes.flatMap(findSquare)

primes .cartesian(squaresRDD) .filter{case (n, (k, _)) => n == k}.map{case (n, (k, _)) => (n, k)} 转换为虚拟对primes(Int, null)会更有效:

join

但根据您的评论,我假设您对存在自然连接条件的情况感兴趣。

根据上下文,您还可以考虑使用数据库或文件来存储公共数据。

另一方面,RDD不可迭代,因此您不能简单地使用primes.map((_, null)).join(squaresRDD).map(...) 循环。为了能够执行此类操作,您必须先for或转换collect。您也可以使用toLocalIterator方法。

*准确地说,您无法访问foreach

** Torrent广播和树聚合涉及执行者之间的通信,因此技术上是可行的。

答案 1 :(得分:-3)

RDD不可序列化,因此您不能在rdd trasformation中使用rdd。 然后我从未见过枚举带有for语句的rdd,通常我使用的是作为rdd api一部分的foreach语句。

为了合并来自两个rdd的数据,你可以利用join,union或broadcast(如果你的rdd很小)