我是Hadoop / Pig的新手,我刚刚开始阅读文档 有许多关于在群集模式下安装Hadoop的博客 我知道Pig在Hadoop之上运行。
我的问题是:Hadoop安装在所有群集节点上 我是否还应在所有群集节点上或仅在主节点上安装Pig?
答案 0 :(得分:0)
您可能希望在2个不同的节点上安装Hive Metastore和Hive Server。默认情况下,hive使用derby数据库,但大多数人选择使用MySQL,因此也会有一个MYSQL服务器守护进程。 所以不要再混淆你了:
这是最好的做法。如果您有任何其他疑问,可以询问!
答案 1 :(得分:0)
我无法判断问题是关于Hive还是Pig,但客户端和服务器之间存在差异。
对于Hive,主服务是Metastore和HiveServer2。您可以在同一服务器上安装这些守护程序,以改善Metastore和Hive查询编译器之间的网络流量。您只需要一个客户端与这些主人进行通信。
对于Pig,它直接与YARN和HDFS通信(如果使用Hcatalog,则可选择Hive)。同样,它只是一个客户端,所以只有一个主机需要它。
通常首选为Hive提供一组专用机器,为Metastore提供支持RDBMS(Mysql或Postgres是更受欢迎的选项)
您也不需要在集群中安装Pig"。例如,在本地下载Pig之后,我可以从任何外部计算机上获取Hadoop XML配置并对YARN集群运行一些Pig代码(同样适用于Spark)