Spark简单的复制作业内存不足

时间:2018-02-16 04:58:41

标签: scala apache-spark out-of-memory

我有一个简单的Spark Job,只需读取文本文件并使用saveAsTextFile将其写入另一个文件。听起来很简单。

sc.textFile("src.csv").saveAsTextFile("dst_path")

只有Spark会运行到特定任务然后停止。我在本地伪分布式模式活动监视器上看到了kernel_task中的一个巨大峰值。最后,它在10小时内出现内存不足错误。

配置:

  • RAM:8G
  • SSD
  • InputFileSize:14G
  • driver-memory:5G
  • 处理器:2.7 GHz Intel Core i5

我错过了什么?我猜它必须与垃圾收集器做一些事情。从我读到的是Spark读取和流式传输记录。那么,在没有转换的情况下,为什么会尝试将它存储在RAM中呢?

PS: 我为什么要使用spark来复制?不重要。我尝试过一项复杂的工作。但问题归结为仅访问大文件。

0 个答案:

没有答案
相关问题