据我所知,当用户在Spark DataFrame上调用@comment.movie_id
时,
Spark执行所有转换,聚合数据并将结果存储在客户端计算机的内存中。
(如What is the Spark DataFrame method `toPandas` actually doing?中所述)
这是否意味着,假设我有pandas DataFrame,如果我使用这个(任何本地)pandas DataFrame创建Spark DataFrame,Spark分区(?)并分发(?)Pandas DataFrame并返回Spark DataFrame(基本上是RDD那个)是不可变的,并开始跟踪应用于DataFrame的转换)???
我只想了解幕后发生的事情
谢谢