我有一个流程必须处理大小在10 MB到12 GB之间的文件。记录采用JSON和CSV格式。我需要将包含相同记录路径标识符的多条记录展平为一条记录。理想情况下,在单个处理器中执行此操作。
使用PartitionRecord
和MergeRecord
之类的处理器似乎很有吸引力,但想知道如果有成千上万的记录通过PartitionRecord
运行,将每个记录分配给自己的Flowfile的性能是否会降低?他们。拥有数百万个Flowfile会对存储/性能/开销产生什么影响?理想情况下,如果可以的话,我希望坚持使用基于流的面向记录的处理器,但这似乎是NiFi中规定的方法。我也愿意创建自定义PartitionMergeRecord
处理器。