应用错误收集

时间：2018-06-11 15:53:45

标签： hadoop apache-pig

我是Hadoop / Pig的新手，我刚刚开始阅读文档有许多关于在群集模式下安装Hadoop的博客我知道Pig在Hadoop之上运行。

我的问题是：Hadoop安装在所有群集节点上我是否还应在所有群集节点上或仅在主节点上安装Pig？

答案 0 :(得分：0)

您可能希望在2个不同的节点上安装Hive Metastore和Hive Server。默认情况下，hive使用derby数据库，但大多数人选择使用MySQL，因此也会有一个MYSQL服务器守护进程。所以不要再混淆你了：

这是最好的做法。如果您有任何其他疑问，可以询问！

答案 1 :(得分：0)

我无法判断问题是关于Hive还是Pig，但客户端和服务器之间存在差异。

对于Hive，主服务是Metastore和HiveServer2。您可以在同一服务器上安装这些守护程序，以改善Metastore和Hive查询编译器之间的网络流量。您只需要一个客户端与这些主人进行通信。

对于Pig，它直接与YARN和HDFS通信（如果使用Hcatalog，则可选择Hive）。同样，它只是一个客户端，所以只有一个主机需要它。

通常首选为Hive提供一组专用机器，为Metastore提供支持RDBMS（Mysql或Postgres是更受欢迎的选项）

您也不需要在集群中安装Pig＆＃34;。例如，在本地下载Pig之后，我可以从任何外部计算机上获取Hadoop XML配置并对YARN集群运行一些Pig代码（同样适用于Spark）