Apache Spark 2广播变量反序列化

时间:2018-02-01 09:00:00

标签: apache-spark deserialization broadcast

我有Spark 2.2.0并且我遇到了一些问题。我必须使用300MB的广播变量,它似乎是针对每个任务进行反序列化并导致性能问题。是否有可能确保每个执行者只进行一次反序列化?

Oops, there's an AbstractMethodError... maybe you compiled your code with an older version of SJS? here's the exception:

感谢。

评论反应:

我尝试使用jmx配置远程spark,我看到很多cpu用于序列化和反序列化,例如在阶段的附加细节中显示反序列化的时间非常重要。

enter image description here

我的火花配置是cloudera发行5.12.1的标准配置。我使用spark-shell(2.2.0),我有1个驱动程序和2个执行程序,4G是通过参数为驱动程序和执行程序设置的,YARN是master,我有Java 1.8。 Serializer是Kryo。

0 个答案:

没有答案