应用错误收集

Spark的df.cache（）是热切地还是懒洋洋地执行的？

时间：2018-06-11 18:03:43

标签： apache-spark

我在工作中使用pyspark。在本文https://unraveldata.com/to-cache-or-not-to-cache/中，它表示缓存不是一个操作。但是，当我在RDD上运行缓存功能时，需要花费很多时间。并且spark UI显示有一些名为cache at NativeMethodAccessorImpl.java:0的激活作业。缓存动作是什么？

1 个答案:

答案 0 :(得分：2)

缓存是一种懒惰的操作。这意味着当访问从缓存构造的变量时，它将计算它。所以它显示需要时间。

当调用计算时，所有数据都移动到ram。一旦数据在ram计算中可用，就会执行。

spark的TextArea或RichText的内容
无法懒惰地初始化集合，没有关闭任何会话或会话（尽管急切地提取）
Android SQLite查询是否懒惰地执行？
count spark的saveAsHadoopFile是否执行异步？
使用Spark Streaming懒惰地执行DB写入
Spark的“持久性”或“缓存”的范围
在Dask Dataframes上我可以懒得（或同时执行）.set_index（）吗？
Linq`哪里'子句查询结果可以根据查询是懒惰还是非懒惰执行而不同？
Spark的df.cache（）是热切地还是懒洋洋地执行的？
在Java Stream API中，中间操作是延迟执行的，而终端操作是急切执行的，这意味着什么？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？