sparksession.read()是否有一个选项可以在加载时进行缓存?我正在从s3中读取xml文件,它首先扫描文件以派生架构。由于它仍然在读取文件,因此我宁愿在当时加载,使其仅从s3中读取所有文件。
有什么办法吗?
我已经搜索了“ spark”,“ cache”,“ load”和“ read”的每种组合,并且至少深入了两页。
sparkSession.read().format("com.databricks.spark.xml")
.load("s3a://<your path here>")