如何最大限度地利用我的笔记本电脑内存来运行pyspark?

时间:2017-03-29 06:17:36

标签: apache-spark pyspark apache-spark-mllib

我从800M txt文件创建一个数据帧,df有2130万行。我在我的mac上安装了pyspark 2.0.0,内存为16GB。我没有修改任何设置。 我使用70%的df来训练mllib模型和java堆内存。 虽然我使用60%的df进行训练,但没关系并给我一个模型。

如何最大限度地利用笔记本电脑进行设置,让我使用80%或更多数据进行培训? 感谢。

1 个答案:

答案 0 :(得分:1)

您可以为驱动程序设置spark.driver.memory,为spark执行程序设置spark.executor.memory。哪一个是正确的,取决于您的应用程序,但在您的情况下,我猜它是spark.executor.memory

您可以将此设置为spark-submit和/或pyspark的命令行选项。

有关详细信息,请参阅Apache Spark Memory Docs