我在尝试使某些操作在pyspark中运行时遇到很多问题。我遇到了一些错误,似乎我内存不足或由于数据集的大小我的代码未优化。
背景:我正在将许多计算机安全生成的日志文件导入为CSV,最大文件约为70GB。我正在将文件导入pyspark数据帧,然后尝试重新采样到较少的时间。
我收到以下错误之一:java.io.FileNotFoundException或FileSegmentManagedBuffer
尝试的解决方案: 1.我尝试使用以下初始化SparkSession时传递submit args:
memory = '20g'
pyspark_submit_args = --driver-memory ' + memory + ' pyspark-shell '
os.environ["PYSPARK_SUBMIT_ARGS"] = pyspark_submit_args
这刚刚开始给我带来不同的错误。
目前,我不知道该如何解决这些问题。我是否应该更改一些内存以进行配置,或者是否有办法将作业分成较小的部分,这些部分将在更长的时间内处理?