使用sc.parallelize()进行Databricks IO Cache?

时间:2018-02-05 23:35:58

标签: databricks

我经历了https://docs.databricks.com/user-guide/databricks-io-cache.html但是除了设置配置设置以启用DBIO之外,代码中没有一行示例代码如何使用DBIO缓存(而不是标准的Spark RDD缓存)高速缓存中。

我是否假设如果我启用该设置spark.conf.set("spark.databricks.io.cache.enabled", "true")那么在我的火花作业中,无论我创建的RDD将基本上被视为DBIO缓存?如果我想区分并在我的代码中同时使用该怎么办?

1 个答案:

答案 0 :(得分:4)

DBIO缓存仅适用于Parquet数据集。因此,只要您从Parquet加载DataFrame,就可以使用缓存。您可以通过查看Spark UI中的Storage选项卡进行确认,该选项卡将显示到目前为止您已缓存了多少。此外,为了更容易使用i3实例类型,以便默认启用DBIO缓存。