我的背景是;
10个csv文件在夜间上传到我的服务器。
我的流程是:
摄取:
处理:
我正在寻找最佳实践来自动化第一部分并触发第二部分。
我也看到了https://kylo.io/,它很完美,但我觉得还很年轻,无法投入生产。
提前致谢。
答案 0 :(得分:2)
Oozie和Nifi都将与水槽,蜂巢和火花动作相结合。
所以你的(Oozie或Nifi)工作流程应该像这样工作
cron作业(或时间表)启动工作流程。
工作流程的第一步是Flume流程,用于在所需的HDFS目录中加载数据。只需HDFS命令就可以在没有Flume的情况下执行此操作,但这有助于保持您的解决方案可扩展性。
用于创建/更新表的配置单元
Spark执行自定义spark程序的操作
确保使用正确的日志记录和通知来处理工作流程中的错误处理,以便您可以在生产中操作工作流程。