apache - 在Apache NiFi中对大型记录集进行分区

我有一个流程必须处理大小在10 MB到12 GB之间的文件。记录采用JSON和CSV格式。我需要将包含相同记录路径标识符的多条记录展平为一条记录。理想情况下，在单个处理器中执行此操作。

使用PartitionRecord和MergeRecord之类的处理器似乎很有吸引力，但想知道如果有成千上万的记录通过PartitionRecord运行，将每个记录分配给自己的Flowfile的性能是否会降低？他们。拥有数百万个Flowfile会对存储/性能/开销产生什么影响？理想情况下，如果可以的话，我希望坚持使用基于流的面向记录的处理器，但这似乎是NiFi中规定的方法。我也愿意创建自定义PartitionMergeRecord处理器。

在Apache NiFi中对大型记录集进行分区

0 个答案: