我正在评估一个大数据项目,我们需要从各种互联网资源(ftp,api等)中提取大量数据集,进行光变换和轻量数据质量/健全性检查(例如:行和列式检查),并将其推向下游。立即关注是批量的,但预计支持流式传输。大规模的易于支持是一项重要的要求。
我们正在关注Apache Nifi和Gobblin,它们似乎意图重叠。什么样的用例最适合哪个平台?它们如何符合上述用例?
谢谢!
答案 0 :(得分:0)
我的经验是NiFi,我只是看了一下Gobblin,但主要是,NiFi本身就是一个应用程序,Gobblin是一个框架。
在NiFi中,您将拥有一个具有非常精细授权的GUI,允许多个用户干预流程的不同部分,监控它等等... 另一件事是NiFi总是在'并且'总是在生产中你有可能直接在目标上进行修改,因此,有一些安全措施可以避免丢失数据(我的意思是错误)。
所以,我认为这两种解决方案可以或多或少地做同样的事情,如果你有一个工作流程,你想要不时地部署一次,Gobblin可能更合适,但如果你想要一些你给的东西一些用户在生产中直接干预部分流量的权限,NiFi将是最好的。
最后,要将问题放在编程上: