有没有一种方法可以缓存负载?

时间:2019-04-22 17:10:31

标签: apache-spark apache-spark-sql

sparksession.read()是否有一个选项可以在加载时进行缓存?我正在从s3中读取xml文件,它首先扫描文件以派生架构。由于它仍然在读取文件,因此我宁愿在当时加载,使其仅从s3中读取所有文件。

有什么办法吗?

我已经搜索了“ spark”,“ cache”,“ load”和“ read”的每种组合,并且至少深入了两页。

sparkSession.read().format("com.databricks.spark.xml")
  .load("s3a://<your path here>")

0 个答案:

没有答案