对象引用上的Spark序列化

时间:2017-02-28 12:33:53

标签: scala apache-spark serialization

Dose Spark序列化为每个对象引用生成对象?

我有一个工作,所有行都引用一个大对象,实际上因为所有只是对象引用,整体数据不超过1G。 但是,当缓存坏事时(the partition is too large to save)。

Java序列化preserving object reference by id Spark是相同的还是它的具体化(爆炸!)所有参考?我找不到关于此的文件,但我认为应该有。

1 个答案:

答案 0 :(得分:0)

这不是一个关于大对象应该问的问题,而是涉及小对象和引用相等的一些情况。

对于大型对象,您应该使用广播变量: http://spark.apache.org/docs/latest/programming-guide.html#broadcast-variables