缓存与Tempview

时间:2016-11-06 03:42:10

标签: caching apache-spark parquet

我有一个镶木地板文件,我在我的应用程序中至少阅读了4-5次。我想知道什么是最有效的事情。

选项1.在编写镶木地板文件时,将其读回数据集并调用缓存。我假设通过立即读取我可能会使用一些现有的hdfs / spark缓存作为写入过程的一部分。

选项2.在我的应用程序中,当我第一次需要数据集时,在读取之后将其缓存。

选项3.在编写镶木地板文件时,在完成后创建一个临时视图。在以后的所有用法中,请使用视图。

我也不太清楚从tempview和deck数据集中读取的效率。

数据集并不适合所有内存。

1 个答案:

答案 0 :(得分:2)

您应该缓存数据集(选项2)。

  • 写入磁盘将不会改进Spark内存格式
  • 临时视图不缓存。