我是新的pyspark用户。 我刚下载并安装了一个火花簇(" spark-2.0.2-bin-hadoop2.7.tgz") 安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中键入hadoop或hdfs时,它会说"找不到命令"。
我是否会安装hadoop / HDFS(我认为它内置于火花中,我不会得到)?
提前致谢。
答案 0 :(得分:4)
您必须先安装hadoop才能访问HDFS。 请遵循此http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
从apache站点选择最新版本的hadoop。 完成hadoop设置后,请点击http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下载,提取文件。在spark-env.sh中设置java_home和hadoop_home。
答案 1 :(得分:1)
您在类路径上没有hdfs
或hadoop
,所以这就是您收到消息的原因:"没有命令发现" 。
如果您运行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /
,它应该可以运行并显示根内容。
但是,您可以使用以下内容将hadoop/bin
(hdfs
,hadoop
...)命令添加到类路径中:
export PATH $PATH:$HADOOP_HOME/bin
其中HADOOP_HOME
是您的环境。带有hadoop
installation folder (download and install is required)