应用错误收集

def transform_data(data_dict, broadcast_map):
    detail = broadcast_map.value.get('key)

broadcast_map = spark_session.sparkContext.broadcast(my_map)
data_frame = spark_session.sql(get_data_sql())
data_frame.rdd.map(lambda hive_data: transform_data(hive_data.asDict(),broadcast_map))

如果我通过广播值的引用，执行者将如何识别正确的广播对象？或者，如果代码的结构是这样的，则每次调用该方法时，广播对象是否都将复制到执行程序？

使用广播的目的是防止不必要地将数据复制到执行者。

PySpark在执行程序中访问广播值

0 个答案: