PySpark在执行程序中访问广播值

时间:2019-01-04 17:26:24

标签: apache-spark pyspark

def transform_data(data_dict, broadcast_map):
    detail = broadcast_map.value.get('key)

broadcast_map = spark_session.sparkContext.broadcast(my_map)
data_frame = spark_session.sql(get_data_sql())
data_frame.rdd.map(lambda hive_data: transform_data(hive_data.asDict(),broadcast_map))

如果我通过广播值的引用,执行者将如何识别正确的广播对象? 或者,如果代码的结构是这样的,则每次调用该方法时,广播对象是否都将复制到执行程序?

使用广播的目的是防止不必要地将数据复制到执行者。

0 个答案:

没有答案