我有一些任务要使用Nifi在Hadoop中上传一些大数据结果以进行日常负载。要上传的结果基于我收到的CSV。存在一个事实CSV文件,该文件需要与基于- 1.事实表ID 2.尺寸表CSV名称
例如,csv事实文件名20190719.csv
具有字段 flight_id :
每个flight_id值都有其单独的CSV维度文件,例如示例20190719_536533669.csv
:
对我来说,这个想法是让管道在NIFI中运行,以便我可以完成此结果。
考虑到维文件很多,每个维文件包含1000多个记录。用各种处理器组合构建结果的最佳方式是什么?
谢谢