运行Spark的最佳方式

时间:2015-04-09 18:31:17

标签: apache-spark

我们正在开展一个小组项目,我们想利用spark。但是,我们不知道在我们的计算机上运行它的最佳方法是什么。我们原本想过Hortonworks,有人建议看Maven。但我们不确定。

我们是学生,所以我们不能买任何东西(至少是任何昂贵的东西)。

当我在计算机(Windows)上搜索运行Spark的方法时,它通常会弹出编译技术或代码帮助。

3 个答案:

答案 0 :(得分:0)

运行spark的最简单,最快捷的方法是以独立模式部署它。请参阅本指南:http://spark.apache.org/docs/1.3.0/spark-standalone.html

当您使用Windows计算机时,我建议您在使用Maven构建之前先查看一下:Spark 1.3.0 build failure

一旦您下载了源代码并修改了pom.xml,请使用

进行构建
mvn -DskipTests clean package

如果您告诉我们更多关于您计划如何为项目使用spark的话,我们可能会给您一个更好的答案。

答案 1 :(得分:-1)

您有很多选择:

  1. 下载source from githubApache并在本地运行。 自述文件有说明,您也可以下载Learning Spark 并阅读第2章。
  2. 下载Cloudera Distribution Hadoop 5 QuickStart Virtual Machine。这需要虚拟机播放器,如VMWare或 VirtualBox(确保在BIOS中启用了VT-x)。这运行Spark 在伪分布式独立模式下,允许您运行它 在Yarn容器内部进行一些配置更改。你也是 可以使用所有依赖项在本地运行Spark 安装。
  3. 下载Hortonworks虚拟机。它与Cloudera的产品非常相似,但我对它并不熟悉。
  4. 如果您的计算机能够运行重量级的VM并且您想尝试在伪分布式环境中运行它,我建议您使用Cloudera。如果您只想学习如何使用API​​进行编程,请尝试第一个选项。

答案 2 :(得分:-1)

  1. http://spark.apache.org/downloads.html下载预先构建的Spark版本。
  2. 运行bin/spark-shell.cmd。看到 http://spark.apache.org/docs/latest/quick-start.html