我必须使用Apache Spark计算并保留几个(例如20个或更多)随机森林模型。
我在用于启动作业的纱线群的驱动程序上只有8 GB可用。我面临OutOfMemory
错误,因为模型不适合内存。我已经将比率spark.storage.memoryFraction
降低到0.1以尝试增加非RDD内存。
我有两个问题:
修改
我有200个执行器,有8GB的空间。
我不确定我的模型是否存在于驱动程序中,但我怀疑它是因为我遇到OutOfMemory
错误而且执行程序中有足够的空间。此外,我在Arrays