def transform_data(data_dict, broadcast_map):
detail = broadcast_map.value.get('key)
broadcast_map = spark_session.sparkContext.broadcast(my_map)
data_frame = spark_session.sql(get_data_sql())
data_frame.rdd.map(lambda hive_data: transform_data(hive_data.asDict(),broadcast_map))
如果我通过广播值的引用,执行者将如何识别正确的广播对象? 或者,如果代码的结构是这样的,则每次调用该方法时,广播对象是否都将复制到执行程序?
使用广播的目的是防止不必要地将数据复制到执行者。