远程使用Hadoop集群

时间:2012-12-03 11:49:33

标签: hadoop hadoop-plugins

我有一个Web应用程序和一个远程集群(可以是一个或多个)。这些群集可以位于不同的计算机上。 我想从我的Web应用程序执行以下操作:

1 HDFS行动: -

  • 创建新目录
  • 从HDFS(Hadoop分布式文件系统)中删除文件
  • 列出HDFS上的文件
  • 将文件加载到HDFS
  • 卸载文件

2与工作相关的行动: -

  • 提交地图减少工作
  • 查看他们的状态,即已完成的工作量
  • 工作完成的时间

我需要一个可以帮助我从Web应用程序执行这些任务的工具 - 通过API,通过REST调用等。我假设该工具将在同一台机器上运行(如Web应用程序)并且可以指向特定的远程集群。

虽然作为最后一个选项(因为可能存在多个不同的群集,但很难确保每个群集都安装了插件,库等),我是想知道是否会有一些Hadoop库,插件停留在集群上,允许从远程机器访问并执行上述任务。

1 个答案:

答案 0 :(得分:2)

允许您在此列出的所有内容的最佳框架是Spring Data - Apache Hadoop。这有基于Java Scripting API的实现,可以执行以下操作

1 HDFS Actions :-

Create New Directory
Remove files from HDFS(Hadoop Distributed File System)
List Files present on HDFS
Load File onto the HDFS
Unload File

以及基于弹出调度的实现,以执行以下操作

2 Job Related Actions:-

Submit Map Reduce Jobs
View their status i.e. how much job has comleted
Time taken by the job to finish