应用错误收集

对象引用上的Spark序列化

时间：2017-02-28 12:33:53

标签： scala apache-spark serialization

Dose Spark序列化为每个对象引用生成对象？

我有一个工作，所有行都引用一个大对象，实际上因为所有只是对象引用，整体数据不超过1G。但是，当缓存坏事时（the partition is too large to save）。

Java序列化preserving object reference by id Spark是相同的还是它的具体化（爆炸！）所有参考？我找不到关于此的文件，但我认为应该有。

1 个答案:

答案 0 :(得分：0)

这不是一个关于大对象应该问的问题，而是涉及小对象和引用相等的一些情况。

对于大型对象，您应该使用广播变量： http://spark.apache.org/docs/latest/programming-guide.html#broadcast-variables