我在JSON和CSV加载的spark中的两个寄存器表中执行多个选择。 但是在每次选择每次加载的两个文件时,我可以加载一次全局对象吗?
答案 0 :(得分:0)
您可以persist()
使用StorageLevel
作为MEMORY_AND_DISK
import org.apache.spark.storage.StorageLevel
dataFrame.persist(StorageLevel.MEMORY_AND_DISK)
注意:此选项更有用,您可以在输入数据集上执行某些聚合/转换,然后再进行下一次转换