如何避免NiFi中的流文件失败记录?

时间:2020-10-06 02:07:13

标签: apache-nifi

我有一个将近500.000条记录的json文件,其中有些记录解析错误或在错误的位置加了双引号。问题是当我尝试UpdateRecord时出现警告,告诉我哪些是失败记录,但我无法加载其他任何有效记录。

我正在使用这种安全的处理器:

GetFile-> UpdatAttribute-> ConvertCharacterSet->-> UpdateRecord-> PutParquet

GetFile->用于获取文件

UpdateAttribute->更新某些属性(无关紧要)

ConvertCharacterSet-> ASCII转换为UTF-8,因为我在记录中有ééíóúñ字符。

UpdateRecord->屏蔽一条记录

PutParquet->要将文件保存在Parquet中。

我不知道如何将更新记录中的好记录发送到PutParquet,将坏记录中的错误记录发送到错误日志。

也许我需要另一个处理器,但是我尝试用validateRecord却没有用(可能配置错误)。

记录失败的示例:


2020-10-06 01:47:23,471 ERROR org.apache.nifi.processors.standard.UpdateRecord: UpdateRecord[id=36473d38-5d59-1fae-82c1-5f46f50cbfab] Failed to process StandardFlowFileRecord[uuid=0152318c-d126-4c48-8b2e-3f41413724b8,claim=StandardContentClaim [resourceClaim=StandardResourceClaim[id=1601948827512-2676, container=default, section=628], offset=0, length=1587131043],offset=0,name=auditoria_20200929.txt.prq,size=1587131043]; will route to failure: org.apache.nifi.processor.exception.ProcessException: IOException thrown from UpdateRecord[id=36473d38-5d59-1fae-82c1-5f46f50cbfab]: org.codehaus.jackson.JsonParseException: Unexpected character ('B' (code 66)): was expecting double-quote to start field name
 at [Source: java.io.BufferedInputStream@35fab6ff; line: 179249, column: 393373]

2020-10-06 01:47:52,539 ERROR org.apache.nifi.processors.parquet.PutParquet: PutParquet[id=f7baa377-0174-1000-b6f3-ee3d6768eadd] Failed to write due to org.codehaus.jackson.JsonParseException: Unexpected character ('B' (code 66)): was expecting double-quote to start field name
 at [Source: java.io.BufferedInputStream@8295d5; line: 179249, column: 393373]: org.codehaus.jackson.JsonParseException: Unexpected character ('B' (code 66)): was expecting double-quote to start field name
 at [Source: java.io.BufferedInputStream@8295d5; line: 179249, column: 393373]
org.codehaus.jackson.JsonParseException: Unexpected character ('B' (code 66)): was expecting double-quote to start field name
 at [Source: java.io.BufferedInputStream@8295d5; line: 179249, column: 393373]

这个想法是将所有失败记录发送给创建它们的人。

我的UpdateRecord配置:

UpdateRecord

enter image description here

2 个答案:

答案 0 :(得分:1)

ValidateRecord将是顺理成章的方法,因此也许您需要对ValidateRecord配置进行更多调试。

或者,您可以引入SplitRecord处理器将每个记录拆分为单独的FlowFiles-那么一个转换失败将不会影响任何其他记录,并且您可以将失败路由到任何需要的地方。但是,这确实会带来开销,并且可能会影响流程的整体性能。

答案 1 :(得分:0)

可能的解决方法:

  1. 在创建时将JSON数据转换为UTF-8编码。
  2. $NIFI_ROOT/conf/bootstrap.conf中添加一个参数,该参数将-Dfile.encoding=UTF-8添加到早期的JVM参数中。它需要早于参数顺序,就像我认为在Xmx和Xms之后一样。这将以默认编码设置为UTF-8加载JVM。我不知道Linux上是否需要它,但是Windows上的默认字符集不是UTF-8 AFAIK。