应用错误收集

时间：2017-04-12 17:54:23

标签： hadoop apache-nifi data-ingestion

我的背景是;

10个csv文件在夜间上传到我的服务器。

我的流程是：

我正在寻找最佳实践来自动化第一部分并触发第二部分。

我也看到了https://kylo.io/，它很完美，但我觉得还很年轻，无法投入生产。

提前致谢。

答案 0 :(得分：2)

Oozie和Nifi都将与水槽，蜂巢和火花动作相结合。

所以你的（Oozie或Nifi）工作流程应该像这样工作

cron作业（或时间表）启动工作流程。
工作流程的第一步是Flume流程，用于在所需的HDFS目录中加载数据。只需HDFS命令就可以在没有Flume的情况下执行此操作，但这有助于保持您的解决方案可扩展性。
用于创建/更新表的配置单元
Spark执行自定义spark程序的操作

确保使用正确的日志记录和通知来处理工作流程中的错误处理，以便您可以在生产中操作工作流程。