Question

我在尝试使某些操作在pyspark中运行时遇到很多问题。我遇到了一些错误，似乎我内存不足或由于数据集的大小我的代码未优化。

背景：我正在将许多计算机安全生成的日志文件导入为CSV，最大文件约为70GB。我正在将文件导入pyspark数据帧，然后尝试重新采样到较少的时间。

我收到以下错误之一：java.io.FileNotFoundException或FileSegmentManagedBuffer

尝试的解决方案： 1.我尝试使用以下初始化SparkSession时传递submit args：

memory = '20g'
pyspark_submit_args = --driver-memory ' + memory + ' pyspark-shell ' 
os.environ["PYSPARK_SUBMIT_ARGS"] = pyspark_submit_args

这刚刚开始给我带来不同的错误。

目前，我不知道该如何解决这些问题。我是否应该更改一些内存以进行配置，或者是否有办法将作业分成较小的部分，这些部分将在更长的时间内处理？