databricks - 使用sc.parallelize（）进行Databricks IO Cache？ - Thinbug

使用sc.parallelize（）进行Databricks IO Cache？

时间：2018-02-05 23:35:58

标签： databricks

我经历了https://docs.databricks.com/user-guide/databricks-io-cache.html但是除了设置配置设置以启用DBIO之外，代码中没有一行示例代码如何使用DBIO缓存（而不是标准的Spark RDD缓存）高速缓存中。

我是否假设如果我启用该设置spark.conf.set("spark.databricks.io.cache.enabled", "true")那么在我的火花作业中，无论我创建的RDD将基本上被视为DBIO缓存？如果我想区分并在我的代码中同时使用该怎么办？

1 个答案:

答案 0 :(得分：4)

DBIO缓存仅适用于Parquet数据集。因此，只要您从Parquet加载DataFrame，就可以使用缓存。您可以通过查看Spark UI中的Storage选项卡进行确认，该选项卡将显示到目前为止您已缓存了多少。此外，为了更容易使用i3实例类型，以便默认启用DBIO缓存。