我有一个镶木地板文件,我在我的应用程序中至少阅读了4-5次。我想知道什么是最有效的事情。
选项1.在编写镶木地板文件时,将其读回数据集并调用缓存。我假设通过立即读取我可能会使用一些现有的hdfs / spark缓存作为写入过程的一部分。
选项2.在我的应用程序中,当我第一次需要数据集时,在读取之后将其缓存。
选项3.在编写镶木地板文件时,在完成后创建一个临时视图。在以后的所有用法中,请使用视图。
我也不太清楚从tempview和deck数据集中读取的效率。
数据集并不适合所有内存。
答案 0 :(得分:2)
您应该缓存数据集(选项2)。