在hadoop集群中,是否应该在所有节点上安装配置单元?安装猪

时间:2018-06-11 15:53:45

标签: hadoop apache-pig

我是Hadoop / Pig的新手,我刚刚开始阅读文档 有许多关于在群集模式下安装Hadoop的博客 我知道Pig在Hadoop之上运行。

我的问题是:Hadoop安装在所有群集节点上 我是否还应在所有群集节点上或仅在主节点上安装Pig?

2 个答案:

答案 0 :(得分:0)

您可能希望在2个不同的节点上安装Hive Metastore和Hive Server。默认情况下,hive使用derby数据库,但大多数人选择使用MySQL,因此也会有一个MYSQL服务器守护进程。 所以不要再混淆你了:

  1. 在一个节点上安装HiveServer和WebHcat服务器
  2. 在另一个节点上安装Hive Metastore和MySQL服务器。
  3. 这是最好的做法。如果您有任何其他疑问,可以询问!

答案 1 :(得分:0)

我无法判断问题是关于Hive还是Pig,但客户端和服务器之间存在差异。

对于Hive,主服务是Metastore和HiveServer2。您可以在同一服务器上安装这些守护程序,以改善Metastore和Hive查询编译器之间的网络流量。您只需要一个客户端与这些主人进行通信。

对于Pig,它直接与YARN和HDFS通信(如果使用Hcatalog,则可选择Hive)。同样,它只是一个客户端,所以只有一个主机需要它。

通常首选为Hive提供一组专用机器,为Metastore提供支持RDBMS(Mysql或Postgres是更受欢迎的选项)

您也不需要在集群中安装Pig"。例如,在本地下载Pig之后,我可以从任何外部计算机上获取Hadoop XML配置并对YARN集群运行一些Pig代码(同样适用于Spark)