当数据大小远大于集群中的可用内存时,Spark如何进行内存中计算

时间:2019-03-02 14:52:37

标签: apache-spark

我对用于内存计算的Spark工作机制不感到困惑。 如果spark在内存中进行处理,  拥有16 GB内存存储时如何计算100 TB数据

1 个答案:

答案 0 :(得分:1)

Spark将处理适合机器资源和计算能力的数据块。这项工作将分为几个迭代过程,在此过程中,spark会将数据加载到内存中,进行处理,并在必要时将结果写回磁盘以处理下一个数据块。