使用集成的spark构建时创建hdfs

时间:2016-04-12 11:41:22

标签: hadoop apache-spark hdfs

我正在使用Windows并尝试设置Spark。

之前我除了Spark之外还安装了Hadoop,编辑了配置文件,运行了hadoop namenode -format,然后我们去了。

我现在正试图通过使用预先使用hadoop构建的Spark捆绑版本来实现相同目标 - spark-1.6.1-bin-hadoop2.6.tgz

到目前为止,它是一个更清洁,更简单的过程,但是我不再能够访问创建hdfs的命令,hdfs的配置文件不再存在而且我没有&# 39; hadoop的'在任何bin文件夹中。

在spark安装中没有Hadoop文件夹,我创建了一个用于winutils.exe的文件夹。

感觉我错过了什么。预先构建的spark版本不包括hadoop吗?这种变体是否缺少这种功能,还是有其他我忽视的东西?

感谢您的帮助。

2 个答案:

答案 0 :(得分:1)

通过说Spark是使用Hadoop构建的,这意味着Spark是使用Hadoop的依赖关系构建的,即使用客户端来访问Hadoop(或更准确地说是HDFS)。

因此,如果您使用为Hadoop 2.6构建的Spark版本,您将能够通过Spark访问Hadoop版本2.6的集群的HDFS文件系统。

这并不意味着Hadoop是pakage的一部分并且下载它也会安装Hadoop。您必须单独安装Hadoop。

如果您下载没有Hadoop支持的Spark版本,则需要在您编写的所有应用程序中包含Hadoop客户端库,以便访问HDFS(例如textFile)。

答案 1 :(得分:0)

我也在我的Windows 10中使用相同的火花。我做了什么创建C:\ winutils \ bin目录并将winutils.exe放在那里。比创建HADOOP_HOME = C:\ winutils变量。如果你已经设置了全部  env变量和PATH如SPARK_HOME,HADOOP_HOME等应该可以工作。