在Apache NiFi中对大型记录集进行分区

时间:2019-02-01 20:58:08

标签: apache etl apache-nifi

我有一个流程必须处理大小在10 MB到12 GB之间的文件。记录采用JSON和CSV格式。我需要将包含相同记录路径标识符的多条记录展平为一条记录。理想情况下,在单个处理器中执行此操作。

使用PartitionRecordMergeRecord之类的处理器似乎很有吸引力,但想知道如果有成千上万的记录通过PartitionRecord运行,将每个记录分配给自己的Flowfile的性能是否会降低?他们。拥有数百万个Flowfile会对存储/性能/开销产生什么影响?理想情况下,如果可以的话,我希望坚持使用基于流的面向记录的处理器,但这似乎是NiFi中规定的方法。我也愿意创建自定义PartitionMergeRecord处理器。

0 个答案:

没有答案