我对大数据和相关领域的概念都很陌生,如果我犯了一些错误或错误,请对不起。
我想了解Apache Spark并在开发/测试环境中仅将用于我的计算机。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统有用的软件,我可以放弃吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本? Here我只能找到Hadoop依赖版本。
我有理由在我的计算机上运行Hadoop或任何其他分布式文件系统用于测试目的吗?
请注意" Can apache spark run without hadoop?"是一个与我不同的问题,因为我确实希望在开发环境中运行Spark。
答案 0 :(得分:12)
是的,您可以在没有Hadoop的情况下安装Spark。 浏览Spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html
粗略步骤:
Spark(没有Hadoop) - 在Spark下载页面上的Avaialble 网址:https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
如果此网址不起作用,请尝试从Spark下载页面
获取答案 1 :(得分:0)
这不是原始问题的正确答案。 对不起,是我的错。
如果有人想运行 spark without hadoop
分发 tar.gz
。
应该有环境变量要设置。这 spark-env.sh
对我有用。
#!/bin/sh
export SPARK_DIST_CLASSPATH=$(hadoop classpath)