来自SplitRecord处理器Nifi的运行记录计数

时间:2018-09-07 07:56:18

标签: apache-nifi kylo

有没有办法从SplitRecord处理器Nifi获取片段索引?我正在将一个非常大的xls(4个工厂记录)拆分为“每次拆分记录” = 100000。

现在我只想处理前2个分割,以查看文件的质量并拒绝其余文件。

我可以看到片段索引在其他拆分功能(例如JsonSplit)中,但不在记录拆分中。还有其他骇客吗?

1 个答案:

答案 0 :(得分:3)

方法1:

通过使用控制率处理器,我们可以实现这种情况

控制费率处理器: enter image description here

通过此配置,我们每分钟发布2个流文件,并且

流量: enter image description here

将队列到期时间配置为大约10秒(如果需要,可以设置为更短的数字),然后流文件将在队列中到期,但将释放前2个流文件。

方法2:

通过使用SplitText处理器,然后使用RouteOnAttribute Processor并将新属性添加为

${fragment.index:le(2)}

通过使用上述表达语言,我们仅允许前两个片段索引。

有关在NiFi中分割大文件的信息,请参见this链接。