如何打印广播变量的内容

时间:2016-07-15 17:59:32

标签: apache-spark pyspark

我在pyspark shell中创建了一个广播变量,我想简单地检查它里面的内容。

但是,我通常用于打印或查看RDD的功能对广播变量不可用。

即。 .collect().take(5)等都会引发可怕的Broadcast object has no property ...错误。

如何查看存储在广播变量中的数据?

1 个答案:

答案 0 :(得分:2)

我猜在Python中是类似的。我在Scala中给你看一个例子。

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

scala> broadcastVar.value
res0: Array[Int] = Array(1, 2, 3)

如果你保存broadcastVar.value的结果,你将得到一个T,在一个变量中你可以打印它或者使用类型T的默认toString方法。