在ubuntu 14.0中安装hadoop-2.6.0

时间:2015-08-14 04:45:53

标签: ubuntu-14.04 hadoop2

如何在 Ubuntu 14.0 安装Hadoop-2.6.0 ? 请任何人告诉安装程序

2 个答案:

答案 0 :(得分:2)

Hadoop伪节点安装

先决条件:

 1.Installing Java v1.8 
 2.Creating dedicated Hadoop system user. 
 3.Configuring SSH access. 
 4.Disabling Ipv6.

1)Installing Java: Hadoop是一个用Java编写的框架,用于在大型商品集群上运行应用程序 硬件。 Hadoop需要Java 6或更高版本才能工作。

步骤1:下载linux-64位的jdk tar.gz文件,将其解压缩到“/ usr / local”

root@localhost  cd /usr/local
root@localhost  tar xvzf /boss/Downloads/jdk-8u5-linux-x64.tar.gz
root@localhost  cd /usr/local/jdk1.8.0_05

第2步:

打开“/etc/profile”文件并根据版本添加以下行 为Java设置环境 使用root用户保存/ etc / profile。 '个人资料' file包含应该为登录shell运行的命令

root@localhost sudo vi /etc/profile

- 插入JAVA_HOME

JAVA_HOME= /usr/local/jdk1.8.0_05

- 在PATH变量中只是追加到行的末尾

PATH=$PATH:$JAVA_HOME/bin

- 在导出语句

的末尾附加JAVA_HOME
export PATH JAVA_HOME

第3步:获取/ etc / profile

root@localhost source /etc/profile (or) sudo . /etc/profile

使用“Esc”键然后按:wq!

保存文件

第4步:更新java替代方案

默认情况下,操作系统将具有打开的jdk。通过“java -version”检查。你会得到提示“openJDK” 如果您还安装了openjdk,那么您需要更新Java备选方案:

如果您的系统有多个版本的Java,请通过输入配置系统导致的版本   终端窗口中的以下命令

默认情况下,操作系统将具有打开的jdk。通过“java -version”检查。您将会提示“Java HotSpot(TM)64-   位服务器“

root@localhost   update-alternatives --install "/usr/bin/java" java "/usr/local/jdk1.8.0_25/bin/java" = 1



 root@localhost update-alternatives --config java

- 类型选择号:

 root@localhost  java -version

2)禁用IPV6:

IPV6网络目前不支持Apache Hadoop。它只经过测试

并在IPV4堆栈上开发。 Hadoop只允许IPV4工作,只允许IPV4

客户端与群集通信。

现在我们要在“sysctl.conf”中禁用IPV6条目

我们需要编辑etc文件夹中的sysctl.conf,打开

 root@localhost vi /etc/sysctl.conf

在文件末尾添加以下行

禁用ipv6

 net.ipv6.conf.all.disable_ipv6 = 1

 net.ipv6.conf.default.disable_ipv6 = 1

 net.ipv6.conf.lo.disable_ipv6 = 1

使用“Esc”键然后按:wq!

保存文件

3)为Hadoop创建用户

第1步:现在创建名为“hdfs”的用户&组称为“hadoop”。

root@localhost adduser hdfs

- 为用户“hdfs”设置密码,为简单起见,使用密码“hdfs”

 root@localhost  addgroup hadoop

- 检查用户和组ID

 root@localhost  adduser hdfs hadoop

第2步:创建用户后

id hdfs

setfacl -m u:hdfs:rwx / opt

步骤3:确保所有Hadoop安装都应在“hdfs”下完成。

root@localhost # su hdfs

3)SSH配置:(如果你省略这个,可选但很痛苦)

Hadoop需要SSH访问才能管理其节点,即远程计算机和

你的本地机器如果你想在它上面使用Hadoop(这就是我们想要的

在这个简短的教程中做)。对于我们的Hadoop单节点设置,我们

需要配置对localhost的SSH访问

需要创建基于无密码SSH密钥生成的身份验证

这样主节点就可以登录到从节点(和次要节点

node)轻松启动/停止它们,没有任何延迟进行身份验证。

在辅助名称节点上设置。

如果您跳过此步骤,则必须在Master

时为所有从站提供密码

通过./start-*.sh启动该过程。如果您已将更多no.of slave配置为

重复上面的第二行到所有从属

slave1,slave2等。

为用户生成SSH密钥。然后启用无密码SSH访问

         your local machine with this newly created key.

- 系统会要求您输入密码

 hdfs@localhost # ssh localhost

- 按ctrl c

hdfs@localhost# ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

hdfs@localhost# ssh-copy-id -i ~/.ssh/id_rsa.pub localhost

- 完成上述2个步骤后,您将无需密码即可连接,

hdfs@localhost# ssh localhost

hdfs@localhost# exit

4)Hadoop安装:

现在从官方Apache下载Hadoop,最好是稳定版   发布Hadoop 2.6.0版本并将Hadoop包的内容提取到您选择的位置。

我们选择位置为“/ opt /”

步骤1:从官方网站下载最新版本Hadoop(hadoop-2.6.0)的tar.gz文件。

步骤2:将下载的文件从此命令解压缩(解压缩)到/ opt / hdfs

 hdfs@localhost# cd /opt/

 hdfs@localhost# sudo tar -vxzf hadoop-2.6.0.tar.gz

 hdfs@localhost# cd hadoop-2.6.0

步骤3:通过〜/ .bashrc文件创建环境

“bashrc”文件使用一组启动文件来帮助创建环境。每个文件都有

特定用途,可能会以不同方式影响登录和交互式环境。

中的文件

$ HADOOP_HOME / bin目录通常在整个

中提供全局设置

整壳

 hdfs@localhost# vi ~/.bashrc

在文件末尾添加以下行

 export JAVA_HOME=/usr/local/jdk1.8.0_05

 export HADOOP_HOME=/opt/hadoop-2.6.0

 export HADOOP_INSTALL=$HADOOP_HOME

 export HADOOP_MAPRED_HOME=$HADOOP_HOME

 export HADOOP_COMMON_HOME=$HADOOP_HOME

 export HADOOP_HDFS_HOME=$HADOOP_HOME

 export YARN_HOME=$HADOOP_HOME

 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使用“Esc”键然后按:wq!

保存文件

第4步:来源〜/ .bashrc

 hdfs@localhost# source ~/.bashrc

步骤5:修改hadoop环境文件:

Hadoop的

 environmental files placed under “/opt/hadoop-2.6.0/” i.e

  $HADOOP_HOME


  Add JAVA_HOME to “libexec/hadoop-config.sh”.


 hdfs@localhost# cd /opt/hadoop-2.6.0

 hdfs@localhost# vi libexec/hadoop-config.sh

添加“JAVA_HOME”

 export JAVA_HOME=/usr/local/jdk1.8.0_25

使用“Esc”键然后按:wq!

保存文件

第6步:

将JAVA_HOME添加到etc / hadoop / hadoop-env.sh。在/opt/hadoop-2.6.0下

 hdfs@localhost# vi etc/hadoop/hadoop-env.sh

添加“JAVA_HOME”

 export JAVA_HOME=/usr/local/jdk1.8.0_25

使用“Esc”键然后按:wq!

保存文件

第7步:检查Hadoop安装

 hdfs@localhost# cd /opt/hadoop-2.6.0

 hdfs@localhost# bin/hadoop version

此时Hadoop已安装在您的节点中。

4.1)创建一个名为tmp

的文件夹

TMP将用作其他临时目录的基础(对于name-node和  数据节点)本地和HDFS。创建tmp文件夹的原因是将所有文件移动到远离所有其他标准hadoop的安全位置  文件。

 hdfs@localhost# mkdir -p /opt/hadoop-2.6.0/tmp/datanode

 hdfs@localhost# mkdir -p /opt/hadoop-2.6.0/tmp/namenode

4.2)修改Hadoop配置文件

在本节中,我们将配置Hadoop将存储其

的目录

配置文件,它侦听的网络端口等。我们的设置将使用Hadoop

分布式文件系统(HDFS),即使我们只使用一个本地

机。

在各种可用的hadoop配置文件中添加以下属性   在$ HADOOP_CONF_DIR下,通常在

 $HADOOP_HOME/etc/hadoop/

core-site.xml,hdfs-site.xml,mapred-site.xml&纱的site.xml

第1步:修改core-site.xml

 hdfs@localhost# cd /opt/hadoop-2.6.0/etc/hadoop

 hdfs@localhost# vi core-site.xml

在标签之间粘贴以下内容

 <property>

 <name>fs.default.name</name>

 <value>hdfs://localhost:9000</value>

 </property>

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/hadoop-2.6.0/tmp</value>

 </property>

使用“Esc”键然后按:wq!

保存文件

第2步:修改hdfs-site.xml

 hdfs@localhost# vi hdfs-site.xml

在标记之间粘贴以下内容

(配置namenode和datanode的路径)

 <property>

 <name>dfs.replication</name>

 <value>1</value>

 </property>

 <property>

 <name>dfs.namenode.name.dir</name>

 <value>/opt/hadoop-2.6.0/tmp/namenode</value>

 <property>

 <name>dfs.datanode.data.dir</name>

 <value>/opt/hadoop-2.6.0/tmp/datanode</value>

 </property>

注意:这里我只有一个节点,因此我们将复制值设置为1.在多节点设置中,您将

必须根据您拥有的从节点数增加复制值。

使用“Esc”键然后按:wq!

保存文件

第3步:修改mapred-site.xml

将现有的mapred模板重命名为mapred-site.xml

 hdfs@localhost# cp mapred-site.xml.template mapred-site.xml

 hdfs@localhost# vi mapred-site.xml

在标记之间粘贴以下内容

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property> 

使用“Esc”键然后按:wq!

保存文件

步骤4:修改yarn-site.xml

 root@localhost# vi yarn-site.xml

在标签之间粘贴以下内容

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>
 <property>

 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

 <value>org.apache.hadoop.mapred.ShuffleHandler</value>

 <property>

 <name>yarn.resourcemanager.resource-tracker.address</name>

 <value>localhost:8025</value>

 </property>
 <property>

 <name>yarn.resourcemanager.scheduler.address</name>

 <value>localhost:8030</value>

 <property>

 <name>yarn.resourcemanager.address</name>

 <value>localhost:8050</value>

 </property>

使用“Esc”键然后按:wq!

保存文件

通过NameNode格式化HDFS文件系统

启动Hadoop安装的第一步是格式化Hadoop文件

在我们的“集群”的本地文件系统之上实现的系统

仅包含我们的本地计算机。我们需要在您第一次设置Hadoop时执行此操作

集群。

不要格式化正在运行的Hadoop文件系统,因为您将丢失当前的所有数据

群集(在HDFS中)

格式化namenode(只是初始化

指定的目录

dfs.name.dir变量),运行以下命令:

 hdfs@localhost# cd $HADOOP_HOME

 hdfs@localhost# bin/hadoop namenode -format

启动Hadoop群集

发出命令以下命令启动HDFS :(启动namenode和datanode)

 hdfs@localhost# sbin/start-dfs.sh

要检查已开始的服务,请在JAVA_HOME

中的jps命令中输入
 hdfs@localhost# jps (or) /usr/local/jdk1.8.0_05/bin/jps

输出:

 21422 Jps

 21154 DataNode

 21070 NameNode

 21322 SecondaryNameNode

开始YARN:

启动资源管理器和节点管理器

 hdfs@localhost# sbin/start-yarn.sh

要检查已开始的服务,请在JAVA_HOME

中的jps命令中输入
 hdfs@localhost# jps (or) /usr/local/jdk1.8.0_25/bin/jps

输出:

 21563 NodeManager

 21888 Jps

 21154 DataNode

 21070 NameNode

 21322 SecondaryNameNode

 21475 ResourceManager

停止Hadoop群集:

要停止Hadoop集群和关联服务,请使用以下命令。

停止DFS服务

 hdfs@localhost# sbin/stop-yarn.sh

停止YARN服务

 hdfs@localhost# sbin/stop-dfs.sh

------------------------------------------ THE END --- -------------------------

答案 1 :(得分:0)

您可以参考this article,其中介绍了如何在群集环境中配置Hadoop 2。这里提到了所有必要的步骤。

相关问题