如何安装Apache spark并为R启动并运行?

时间:2015-06-17 08:05:03

标签: r hadoop apache-spark

所以,我是Hadoop和Apache Spark的新手。我是初学者,尝试着它。所以,首先我读到了hadoop和MapReduce的基本内容,它们是如何形成的,然后是Apache Spark提供的优于Hadoop的优势(有些是在内存和磁盘上更快的处理),以及多个库让我们的生活更轻松。现在,我正试图尝试使用Apache Spark。为了做到这一点,我假设我必须在我的机器上安装一个名为Apache Spark的软件。

我所做的是安装Oracle Virtual box。然后我安装了流浪汉。现在,我知道在下载了vagrant,并提取文件和内容后,我必须运行命令vagrant up,它将下载并安装我的虚拟机。但是,我想用R使用Apache Spark。我的意思是,我不认识Python,但我知道R.而且有一天我读到Databricks显然已经释放了对R的支持。因为,我是新手,我我假设,会有一些shell我可以输入我的R命令,计算将使用Apache Spark进行。

因此,我不知道如何继续。我应该vagrant up,我想这允许我使用python shell使用apache spark。或者这是前进的方向,在这之后我将不得不安装一些额外的库来使用R.

2 个答案:

答案 0 :(得分:1)

您正在谈论的软件包是SparkR 实际上你可以在R中导入很少的软件包并且可以在R中本地使用spark但是如果你想使用Spark Standalone集群,那么你也必须安装Spark。在Spark 1.4.0中,R软件包已与Spark安装一起嵌入,您可以通过将它们导入R来直接使用它们。

这个新发布的软件包可以从这个位置下载 -

https://spark.apache.org/downloads.html

现在您可以使用RStudio或R shell并使用这些行导入R包 -

Sys.setenv(SPARK_HOME="/home/hduser/Downloads/FlareGet/Others/spark-1.4.0-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

或者你可以直接从下载包的bin文件夹中运行sparkR shell - 转到bin文件夹并输入命令promt

./sparkR

从此位置下载包裹 - http://www.webhostingjams.com/mirror/apache/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz

答案 1 :(得分:1)

如何安装Apache spark?

请转到https://spark.apache.org/downloads.html

请从2015年7月2日起为Hadoop 2.6及更高版本选择preBuild

下载并解压缩文件

请使用终端并转到下载文件夹,最后转到解压缩文件夹

cd Downloads/ cd spark-1.4.0-bin-hadoop2.6

启动并运行R?

请使用以下命令检查您的目录

ls

您将开始看到文件夹

的文件

CHANGES.txt NOTICE README.md bin data ec2 lib sbin LICENSE R RELEASE conf derby.log examples python

最后,请在终端中输入以下命令以使用R from spark

./bin/sparkR