Question

我们正在开展一个小组项目，我们想利用spark。但是，我们不知道在我们的计算机上运行它的最佳方法是什么。我们原本想过Hortonworks，有人建议看Maven。但我们不确定。

我们是学生，所以我们不能买任何东西（至少是任何昂贵的东西）。

当我在计算机（Windows）上搜索运行Spark的方法时，它通常会弹出编译技术或代码帮助。

Answer 1

运行spark的最简单，最快捷的方法是以独立模式部署它。请参阅本指南：http://spark.apache.org/docs/1.3.0/spark-standalone.html

当您使用Windows计算机时，我建议您在使用Maven构建之前先查看一下：Spark 1.3.0 build failure

一旦您下载了源代码并修改了pom.xml，请使用

进行构建

mvn -DskipTests clean package

如果您告诉我们更多关于您计划如何为项目使用spark的话，我们可能会给您一个更好的答案。

Answer 2

您有很多选择：

下载source from github或Apache并在本地运行。自述文件有说明，您也可以下载Learning Spark 并阅读第2章。
下载Cloudera Distribution Hadoop 5 QuickStart Virtual Machine。这需要虚拟机播放器，如VMWare或 VirtualBox（确保在BIOS中启用了VT-x）。这运行Spark 在伪分布式独立模式下，允许您运行它在Yarn容器内部进行一些配置更改。你也是可以使用所有依赖项在本地运行Spark 安装。
下载Hortonworks虚拟机。它与Cloudera的产品非常相似，但我对它并不熟悉。

如果您的计算机能够运行重量级的VM并且您想尝试在伪分布式环境中运行它，我建议您使用Cloudera。如果您只想学习如何使用API进行编程，请尝试第一个选项。

Answer 3