对火花RDD进行单独操作的成本有多高?

时间:2016-02-08 15:14:11

标签: apache-spark pyspark spark-dataframe

我想知道,火花RDD的rdd.unpersist()操作成本有多高?存储级别设置会影响此操作的性能吗?任何基准(结果/技术)都将非常有用。

1 个答案:

答案 0 :(得分:4)

unpersist从缓存(内存和磁盘)释放RDD并删除它所依赖的shuffle文件。为此,它需要向执行者发送消息。它应该是您使用RDD可以做的最便宜的操作 - 可能不值得基准测试。

另请注意,当垃圾收集RDD时,会自动调用$radicado = \App\Radicado::find($id); $radicado->fill($request->all()); 。所以你无论如何都无法避免这种代价。