我返回了一个spark程序,以从存储容量为1GB的2GB内存文件中查找记录数,并且运行成功。
但是我的问题是2GB的文件不能容纳1GB的内存,但是仍然是spark如何处理文件并返回计数。
答案 0 :(得分:-1)
仅因为磁盘中有2Gb文件,并不意味着它将在RAM中占用相同或更少或更多的内存。另一点是文件如何以磁盘(行格式或列格式)存储。假设它以ORC格式存储,那么它将已经具有有关表的预先计算的详细信息。
我建议您检查火花执行器和有关内存详细信息的任务详细信息,以了解使用多少个阶段/执行器/任务来完成DAG。