我正在阅读有关Spark优化的信息,但不清楚像Kryo那样的钨和串行化。
我从阅读中得到的一些笔记使我想到了这个问题:
“钨的表示比使用Java甚至Kryo序列化器序列化的对象要小得多。” source-hortonworks
“通过代码生成,我们可以提高序列化的吞吐量,进而提高洗牌网络的吞吐量。” source-databricks
答案 0 :(得分:2)
不包括,例如Encoders.kryo
这样的边界情况。
钨使用它自己的二进制存储格式和相应的Serde工具(Encoders
)。这就是为什么在标准操作模式下可以更快,更高效地使用内存。