Apache Spark如何处理不适合内存的数据?

时间:2018-12-22 02:58:38

标签: apache-spark apache-spark-sql apache-spark-2.0

我返回了一个spark程序,以从存储容量为1GB的2GB内存文件中查找记录数,并且运行成功。

但是我的问题是2GB的文件不能容纳1GB的内存,但是仍然是spark如何处理文件并返回计数。

1 个答案:

答案 0 :(得分:-1)

仅因为磁盘中有2Gb文件,并不意味着它将在RAM中占用相同或更少或更多的内存。另一点是文件如何以磁盘(行格式或列格式)存储。假设它以ORC格式存储,那么它将已经具有有关表的预先计算的详细信息。

我建议您检查火花执行器和有关内存详细信息的任务详细信息,以了解使用多少个阶段/执行器/任务来完成DAG。