使用SparkR运行R模型

时间:2017-11-14 08:40:25

标签: r apache-spark-mllib sparkr

提前感谢您的意见。我是ML的新手。 我已经开发了一个R模型(在我的本地使用R studio)并且希望在安装了R Studio的hadoop集群上进行部署。我想使用SparkR来利用高性能计算。 我只想在这里了解SparkR的作用。

SparkR会让R模型在Hadoop集群上的Spark ML中运行算法吗?

OR

SparkR只会启用数据处理吗?ML算法是否会在Hadoop集群上的R上下文中运行?

感谢您的意见。

1 个答案:

答案 0 :(得分:0)

这些是一般性问题,但它们实际上有一个非常简单的问题。直截了当的回答:没有(对两者而言); SparkR wiil都没有。

来自SparkR docs的概述部分:

  

SparkR是一个R包,它提供了一个轻量级的前端来使用来自R的Apache Spark。

SparkR甚至无法读取本机R模型。

使用SparkR执行ML任务背后的想法是你专门在SparkR中开发你的模型(如果你尝试,你也会发现与过多的模型相比,它更加limited R通过各种包装提供。)

即使是来自confusionMatrix包的caret等便利设施也无法使用,因为它们在R数据帧上运行而在Spark数据框上运行(请参阅this question & answer)。