标签: python apache-spark pyspark
我在UDF中需要使用一个大物体(腌制的400mb)有问题。
该对象被腌制并且在每个工人上腌制,但是我不知道如何在UDF之外的一个工人上装载它,这导致每行都要重新装载它。
广播并没有真正帮助为每个任务加载该文件的开销使我的开发环境中的所有事情崩溃。