Spark中数据帧操作的时间复杂度和内存占用量是多少?

时间:2016-02-14 17:39:55

标签: time-complexity apache-spark-sql space-complexity memory-consumption

Spark中数据帧操作的算法复杂性和/或内存消耗是多少?我无法在文档中找到任何信息。

一个有用的例子是使用另一列(withColumn())扩展数据帧时内存/磁盘占用空间的答案:(在Python中使用自动垃圾收集)是否更好地执行table = table.withColumn(…)extended_table = table.withColumn()占用相同的记忆吗?

PS :我们假设两个表都与persist()持久存在。

1 个答案:

答案 0 :(得分:1)

分配给同一个变量或另一个变量并没有什么不同。 Spark只使用这些赋值来构建指定操作的沿袭图。当您调用实际的Spark操作时,将执行沿袭图中的操作。

只有在通过.cache().persist()缓存中间结果时才需要额外的内存。