我的平台是spark 2.1.0,使用python语言。
现在我有大约100个随机森林多分类模型,我已将它们保存在HDFS中。在HDFS中也保存了100个数据集。 我想使用相应的模型预测数据集。如果模型和数据集在内存中缓存,预测的速度将快10倍以上。
但我不知道如何缓存模型,因为模型不是RDD或Dataframe。
谢谢!
答案 0 :(得分:2)
TL; DR 只需cache
数据,如果它在预测过程之外被重复使用,如果不是,您甚至可以跳过它。
RandomForestModel
是一个没有分布式数据结构支持的本地对象,没有DAG
可以重新计算,预测过程是一个简单的仅映射作业。因此,模型无法缓存,即使可能,也无法进行操作。