猎鹰,hadoop核心概念

时间:2014-08-27 17:11:08

标签: hadoop falcon

我是一个偏向前端的开发者,所以有些后端奇怪的概念有时我很难理解,特别是在js世界之外(我知道节点,表达后端)。

我必须为falcon开发一个前端 - hadoop,UI应该允许创建一个新的feed。应允许用户定义流程工作流程。用户必须在创建Feed或流程之前定义或创建至少一个群集。

这些是我收到的一些要求

我的问题是:

Feed实体的行为类似于文档或对象吗?类似于json对象?

群集是否只是制作不同任务的不同位置? (我的意思是在hadoop,猎鹰的生活方式)

流程实体只是在Feed实体中执行的任务的生命周期吗?

群集实体只是一组独立的任务?

我知道有一个REST api与该后端通信,这是否足以管理订阅源,集群等?还是有局限性?

修改

为了回答我想要随着时间的推移添加我有更准确的理解,

实体(供稿,流程,集群)以xml格式定义,提交和获取,此处的实体规范http://falcon.apache.org/EntitySpecification.html

REST API为http://falcon.apache.org/restapi/ResourceList.html,您可以使用它管理实体生命周期。

从前端角度来看,我不需要了解更多。

1 个答案:

答案 0 :(得分:2)

猎鹰基本上使用三种类型的实体。

1.Cluster 2.Feed 3.Process

群集 - 基本上包含系统范围的属性,如hdfs端点,作业跟踪器端点,纱线端点(如果使用纱线),oozie端点,activemq端点

Feed - 与数据相关。 Feed定义包含数据路径,数据可用频率,保留和信息等信息。复制细节。

流程 - 涉及以特定频率运行的作业。流程将使用一个或多个Feed并生成另一个Feed。流程定义将包含作业将运行的频率,将消耗的输入范围,将生成的输出,工作流定义路径等信息。

Falcon包含足够的REST apis来与服务器通信。目前没有这样的限制。如果您发现任何问题,我们(falcon-dev)非常乐意合并您的更改。