如何在spark中加载大文件(json或csv)一次

时间:2017-03-22 09:44:44

标签: json csv apache-spark analytics

我在JSON和CSV加载的spark中的两个寄存器表中执行多个选择。 但是在每次选择每次加载的两个文件时,我可以加载一次全局对象吗?

1 个答案:

答案 0 :(得分:0)

您可以persist()使用StorageLevel作为MEMORY_AND_DISK

import org.apache.spark.storage.StorageLevel
dataFrame.persist(StorageLevel.MEMORY_AND_DISK)

查看文档Google Analytics API

注意:此选项更有用,您可以在输入数据集上执行某些聚合/转换,然后再进行下一次转换