应用错误收集

Spark中数据帧操作的时间复杂度和内存占用量是多少？

时间：2016-02-14 17:39:55

标签： time-complexity apache-spark-sql space-complexity memory-consumption

Spark中数据帧操作的算法复杂性和/或内存消耗是多少？我无法在文档中找到任何信息。

一个有用的例子是使用另一列（withColumn()）扩展数据帧时内存/磁盘占用空间的答案:(在Python中使用自动垃圾收集）是否更好地执行table = table.withColumn(…)或extended_table = table.withColumn()占用相同的记忆吗？

PS ：我们假设两个表都与persist()持久存在。

1 个答案:

答案 0 :(得分：1)

分配给同一个变量或另一个变量并没有什么不同。 Spark只使用这些赋值来构建指定操作的沿袭图。当您调用实际的Spark操作时，将执行沿袭图中的操作。

只有在通过.cache()或.persist()缓存中间结果时才需要额外的内存。