应用错误收集

如何最大限度地利用我的笔记本电脑内存来运行pyspark？

时间：2017-03-29 06:17:36

标签： apache-spark pyspark apache-spark-mllib

我从800M txt文件创建一个数据帧，df有2130万行。我在我的mac上安装了pyspark 2.0.0，内存为16GB。我没有修改任何设置。我使用70％的df来训练mllib模型和java堆内存。虽然我使用60％的df进行训练，但没关系并给我一个模型。

如何最大限度地利用笔记本电脑进行设置，让我使用80％或更多数据进行培训？感谢。

1 个答案:

答案 0 :(得分：1)

您可以为驱动程序设置spark.driver.memory，为spark执行程序设置spark.executor.memory。哪一个是正确的，取决于您的应用程序，但在您的情况下，我猜它是spark.executor.memory。

您可以将此设置为spark-submit和/或pyspark的命令行选项。

有关详细信息，请参阅Apache Spark Memory Docs。