Spark中数据帧操作的算法复杂性和/或内存消耗是多少?我无法在文档中找到任何信息。
一个有用的例子是使用另一列(withColumn()
)扩展数据帧时内存/磁盘占用空间的答案:(在Python中使用自动垃圾收集)是否更好地执行table = table.withColumn(…)
或extended_table = table.withColumn()
占用相同的记忆吗?
PS :我们假设两个表都与persist()
持久存在。
答案 0 :(得分:1)
分配给同一个变量或另一个变量并没有什么不同。 Spark只使用这些赋值来构建指定操作的沿袭图。当您调用实际的Spark操作时,将执行沿袭图中的操作。
只有在通过.cache()
或.persist()
缓存中间结果时才需要额外的内存。