在我们的项目中,我们将数据从一个数据库(oracle)加载到另一个数据库(oracle)并对其进行一些批处理级分析。
到目前为止,这是通过pl / sql作业完成的,我们将3年的数据提取到目标数据库中。
我有一个使用APache nifi自动化流程的任务。
集群信息: 1. 5个节点的APache hadoop集群 2.所有软件均为开放源代码。
我尝试创建一个流,其中我正在使用处理器queryDatabaseTable-> putDatabaseRecord。但据我所知,queryDatabaseTable输出avro格式。
我要求建议我如何进行转换以及处理器的顺序是什么,我还需要处理增量负载/更改数据捕获。请提出。 在此先感谢:)
答案 0 :(得分:2)
使用Avro阅读器配置的PutDatabaseRecord将能够读取QueryDatabaseTable生成的Avro。