我正在研究R和我的预测模型 使用mgcv包。当前的预测模型与GAM一起运行。然而, 使用R需要很多天,我想优化命令。
我正在研究与Hadoop和Spark R的并行性。我在Spark R上找到了预测命令,但我不认为它有GAM。您是否可以告诉我是否有任何方法可以运行我们在R中使用的预测,并行和使用GAM?
换句话说,我可以使用带有(例如)4个节点的群集运行下面的R代码吗?
PS:有可能使用Azure,HDInsight
PS2:花费很多时间的代码(实际上只在R服务器上运行,仅使用一台机器)
cl <- makeCluster(detectCores()-1)
predict_x <- predict("FORMULA_X", newdata=database_x,
type="response", se=TRUE, cluster=cl)
FORMULA_X
和database_x
已确定
答案 0 :(得分:0)
如果您想将培训模型与Spark并行化,则无法使用标准R软件包,而是需要使用Spark MLlib。以下是支持的算法列表:https://spark.apache.org/docs/latest/sparkr.html#machine-learning
您还可以尝试另一个支持并行度的R库:http://docs.h2o.ai/h2o/latest-stable/index.html
最复杂的选项是使用RDD
或DataFrame
操作在Spark中实现您的算法。
原因是您需要为培训模型提供专用实现,以实现并行性。