应用错误收集

当数据大小远大于集群中的可用内存时，Spark如何进行内存中计算

时间：2019-03-02 14:52:37

标签： apache-spark

我对用于内存计算的Spark工作机制不感到困惑。如果spark在内存中进行处理，拥有16 GB内存存储时如何计算100 TB数据

1 个答案:

答案 0 :(得分：1)

Spark将处理适合机器资源和计算能力的数据块。这项工作将分为几个迭代过程，在此过程中，spark会将数据加载到内存中，进行处理，并在必要时将结果写回磁盘以处理下一个数据块。