我从800M txt文件创建一个数据帧,df有2130万行。我在我的mac上安装了pyspark 2.0.0,内存为16GB。我没有修改任何设置。 我使用70%的df来训练mllib模型和java堆内存。 虽然我使用60%的df进行训练,但没关系并给我一个模型。
如何最大限度地利用笔记本电脑进行设置,让我使用80%或更多数据进行培训? 感谢。
答案 0 :(得分:1)
您可以为驱动程序设置spark.driver.memory
,为spark执行程序设置spark.executor.memory
。哪一个是正确的,取决于您的应用程序,但在您的情况下,我猜它是spark.executor.memory
。
您可以将此设置为spark-submit
和/或pyspark
的命令行选项。
有关详细信息,请参阅Apache Spark Memory Docs。