我该如何运行存在内存问题的pyspark代码?

时间:2018-10-08 03:16:25

标签: python pyspark

我在尝试使某些操作在pyspark中运行时遇到很多问题。我遇到了一些错误,似乎我内存不足或由于数据集的大小我的代码未优化。

背景:我正在将许多计算机安全生成的日志文件导入为CSV,最大文件约为70GB。我正在将文件导入pyspark数据帧,然后尝试重新采样到较少的时间。

我收到以下错误之一:java.io.FileNotFoundException或FileSegmentManagedBuffer

尝试的解决方案: 1.我尝试使用以下初始化SparkSession时传递submit args:

memory = '20g'
pyspark_submit_args = --driver-memory ' + memory + ' pyspark-shell ' 
os.environ["PYSPARK_SUBMIT_ARGS"] = pyspark_submit_args

这刚刚开始给我带来不同的错误。

  1. 我还尝试设置延长的网络超时时间,因为有人提到这会有所帮助。

目前,我不知道该如何解决这些问题。我是否应该更改一些内存以进行配置,或者是否有办法将作业分成较小的部分,这些部分将在更长的时间内处理?

0 个答案:

没有答案