已安装Spark但没有命令' hdfs'或者' hadoop'发现

时间:2016-11-17 12:26:38

标签: hadoop apache-spark hdfs pyspark spark-dataframe

我是新的pyspark用户。 我刚下载并安装了一个火花簇(" spark-2.0.2-bin-hadoop2.7.tgz") 安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中键入hadoop或hdfs时,它会说"找不到命令"。

我是否会安装hadoop / HDFS(我认为它内置于火花中,我不会得到)?

提前致谢。

2 个答案:

答案 0 :(得分:4)

您必须先安装hadoop才能访问HDFS。 请遵循此http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

从apache站点选择最新版本的hadoop。 完成hadoop设置后,请点击http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下载,提取文件。在spark-env.sh中设置java_home和hadoop_home。

答案 1 :(得分:1)

您在类路径上没有hdfshadoop,所以这就是您收到消息的原因:"没有命令发现"

如果您运行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /,它应该可以运行并显示根内容。

但是,您可以使用以下内容将hadoop/binhdfshadoop ...)命令添加到类路径中:

export PATH $PATH:$HADOOP_HOME/bin

其中HADOOP_HOME是您的环境。带有hadoop installation folder (download and install is required)

路径的变量