Hadoop摄取自动化技术

时间:2017-04-12 17:54:23

标签: hadoop apache-nifi data-ingestion

我的背景是;

10个csv文件在夜间上传到我的服务器。

我的流程是:

  • 摄取:

    • 将文件放在HDFS上
    • 创建ORC Hive表并在其上放置数据。
  • 处理:

    • 星火加工:转型,清洁,加入....
    • 很多链式步骤(Spark Job)

我正在寻找最佳实践来自动化第一部分并触发第二部分。

  • Cron,sh,dfs put。
  • Oozie?
  • Apache Nifi?
  • 水槽?
  • Telend :(

我也看到了https://kylo.io/,它很完美,但我觉得还很年轻,无法投入生产。

提前致谢。

1 个答案:

答案 0 :(得分:2)

Oozie和Nifi都将与水槽,蜂巢和火花动作相结合。

所以你的(Oozie或Nifi)工作流程应该像这样工作

  1. cron作业(或时间表)启动工作流程。

  2. 工作流程的第一步是Flume流程,用于在所需的HDFS目录中加载数据。只需HDFS命令就可以在没有Flume的情况下执行此操作,但这有助于保持您的解决方案可扩展性。

  3. 用于创建/更新表的配置单元

  4. Spark执行自定义spark程序的操作

  5. 确保使用正确的日志记录和通知来处理工作流程中的错误处理,以便您可以在生产中操作工作流程。