我可以在没有Hadoop的情况下将Spark用于开发环境吗?

时间:2015-09-12 00:12:44

标签: hadoop apache-spark filesystems

我对大数据和相关领域的概念都很陌生,如果我犯了一些错误或错误,请对不起。

我想了解Apache Spark并在开发/测试环境中仅将用于我的计算机。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统有用的软件,我可以放弃吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本? Here我只能找到Hadoop依赖版本。

我需要什么:

  • 从Spark运行所有功能没有问题,但在一台计算机(我的家用计算机)中运行。
  • 我在计算机上使用Spark制作的所有内容都应该在未来的群集中运行而不会出现问题。

我有理由在我的计算机上运行Hadoop或任何其他分布式文件系统用于测试目的吗?

请注意" Can apache spark run without hadoop?"是一个与我不同的问题,因为我确实希望在开发环境中运行Spark。

2 个答案:

答案 0 :(得分:12)

是的,您可以在没有Hadoop的情况下安装Spark。 浏览Spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html

粗略步骤:

  1. 下载预编译的火花或下载火花源并在本地构建
  2. 提取TAR
  3. 设置所需的环境变量
  4. 运行启动脚本。
  5. Spark(没有Hadoop) - 在Spark下载页面上的Avaialble 网址:https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

    如果此网址不起作用,请尝试从Spark下载页面

    获取

答案 1 :(得分:0)

这不是原始问题的正确答案。 对不起,是我的错。


如果有人想运行 spark without hadoop 分发 tar.gz

应该有环境变量要设置。这 spark-env.sh 对我有用。

#!/bin/sh
export SPARK_DIST_CLASSPATH=$(hadoop classpath)