将Pandas Dataframe转换为Spark Dataframe时实际发生了什么

时间:2017-07-11 00:18:52

标签: pandas apache-spark dataframe spark-dataframe rdd

据我所知,当用户在Spark DataFrame上调用@comment.movie_id时, Spark执行所有转换,聚合数据并将结果存储在客户端计算机的内存中。

(如What is the Spark DataFrame method `toPandas` actually doing?中所述)

这是否意味着,假设我有pandas DataFrame,如果我使用这个(任何本地)pandas DataFrame创建Spark DataFrame,Spark分区(?)并分发(?)Pandas DataFrame并返回Spark DataFrame(基本上是RDD那个)是不可变的,并开始跟踪应用于DataFrame的转换)???

我只想了解幕后发生的事情

谢谢

0 个答案:

没有答案