用户应如何使用ambari群集

时间:2017-06-26 13:41:44

标签: hadoop ambari

我的问题非常简单,但没有找到任何人真正问过它。

我们有一个带火花风暴hbase和hdfs(等等)的ambari集群。

我不明白想要使用该群集的用户如何使用它。

例如,用户想要将文件复制到hdfs,运行spark-shell或在hbase shell中创建新表。 他应该在运行cooresponded服务的服务器上获得本地帐户吗?不应该使用第三方机器(例如他自己的笔记本电脑)? 如果是这样,如何使用hadoop fs,就没有办法像spark-shell那样指定服务器ip。

从用户角度运行所有这些任务的正常/正确/预期方式是什么。

感谢。

2 个答案:

答案 0 :(得分:0)

查看Ambari views,特别是在允许浏览HDFS的文件视图中

答案 1 :(得分:0)

从命令行运行所描述任务的预期方法如下:

首先,访问具有为要使用的服务安装所需客户端的服务器的命令行,例如: HDFS,Spark,HBase等。

在通过Ambari配置群集的过程中,可以定义一个或多个将安装客户端的服务器。 Here you can see an example of an Ambari provisioning process step. I decided to install the clients on all servers.

之后,确定哪些服务器安装了所需客户端的一种方法是检查Ambari中的主机视图。 Here you can find an example of an Ambari hosts view: check the green rectangle to see the installed clients.

在一台或多台服务器上安装客户端后,这些服务器将能够通过命令行使用群集服务。 需要明确的是,客户端对服务的利用与位置无关,而不是服务实际运行的服务器。

其次,确保您符合群集的安全机制。对于HDFS,这可能会影响您可以使用哪些用户以及您可以使用它们访问哪些目录。如果您不使用安全机制,例如Kerberos,Ranger等,你应该能够从命令行直接运行你声明的任务。

第三,通过命令行执行任务。

以下是如何在不考虑安全机制的情况下访问HDFS的简短示例:

ssh user@hostxyz # Connect to the server that has the required HDFS client installed
hdfs dfs -ls /tmp # Command to list the contents of the HDFS tmp directory