应用错误收集

将Pandas Dataframe转换为Spark Dataframe时实际发生了什么

时间：2017-07-11 00:18:52

标签： pandas apache-spark dataframe spark-dataframe rdd

据我所知，当用户在Spark DataFrame上调用@comment.movie_id时， Spark执行所有转换，聚合数据并将结果存储在客户端计算机的内存中。

（如What is the Spark DataFrame method `toPandas` actually doing?中所述）

这是否意味着，假设我有pandas DataFrame，如果我使用这个（任何本地）pandas DataFrame创建Spark DataFrame，Spark分区（？）并分发（？）Pandas DataFrame并返回Spark DataFrame（基本上是RDD那个）是不可变的，并开始跟踪应用于DataFrame的转换）???

我只想了解幕后发生的事情

谢谢

0 个答案:

没有答案

IQueryable.Where（）实际上发生了什么？
当我压缩CouchDB数据库时实际发生了什么？
在pandas中通过索引连接数据帧时出现奇怪的行为。有人可以解释发生了什么吗？
Spark调用ShuffleBlockFetcherIterator时发生了什么？
lwz实际发生了什么？
将PIL对象转换为numpy时会发生什么？
我在Python
将Pandas Dataframe转换为Spark Dataframe时实际发生了什么
当我调用rdd.join（rdd）
R中的列表：实际情况是什么？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？