如何在spark中缓存随机森林模型

时间:2018-05-27 02:20:18

标签: apache-spark machine-learning random-forest

我的平台是spark 2.1.0,使用python语言。

现在我有大约100个随机森林多分类模型,我已将它们保存在HDFS中。在HDFS中也保存了100个数据集。 我想使用相应的模型预测数据集。如果模型和数据集在内存中缓存,预测的速度将快10倍以上。

但我不知道如何缓存模型,因为模型不是RDD或Dataframe。

谢谢!

1 个答案:

答案 0 :(得分:2)

TL; DR 只需cache数据,如果它在预测过程之外被重复使用,如果不是,您甚至可以跳过它。

RandomForestModel是一个没有分布式数据结构支持的本地对象,没有DAG可以重新计算,预测过程是一个简单的仅映射作业。因此,模型无法缓存,即使可能,也无法进行操作。

另见(Why) do we need to call cache or persist on a RDD