Question

我对大数据和相关领域的概念都很陌生，如果我犯了一些错误或错误，请对不起。

我想了解Apache Spark并在开发/测试环境中仅将用于我的计算机。由于Hadoop包含HDFS（Hadoop分布式文件系统）和其他仅对分布式系统有用的软件，我可以放弃吗？如果是这样，我在哪里可以下载不需要Hadoop的Spark版本？ Here我只能找到Hadoop依赖版本。

我有理由在我的计算机上运行Hadoop或任何其他分布式文件系统用于测试目的吗？

请注意＆＃34; Can apache spark run without hadoop?＆＃34;是一个与我不同的问题，因为我确实希望在开发环境中运行Spark。

Answer 1

是的，您可以在没有Hadoop的情况下安装Spark。浏览Spark官方文档：http://spark.apache.org/docs/latest/spark-standalone.html

粗略步骤：

如果此网址不起作用，请尝试从Spark下载页面

Answer 2

这不是原始问题的正确答案。对不起，是我的错。

如果有人想运行 spark without hadoop 分发 tar.gz。

应该有环境变量要设置。这 spark-env.sh 对我有用。

#!/bin/sh
export SPARK_DIST_CLASSPATH=$(hadoop classpath)