我在pyspark shell中创建了一个广播变量,我想简单地检查它里面的内容。
但是,我通常用于打印或查看RDD的功能对广播变量不可用。
即。 .collect()
和.take(5)
等都会引发可怕的Broadcast object has no property ...
错误。
如何查看存储在广播变量中的数据?
答案 0 :(得分:2)
我猜在Python中是类似的。我在Scala中给你看一个例子。
scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)
scala> broadcastVar.value
res0: Array[Int] = Array(1, 2, 3)
如果你保存broadcastVar.value的结果,你将得到一个T,在一个变量中你可以打印它或者使用类型T的默认toString方法。