我正在开发一个Nifi流程,我正在获取一个包含多个键值对的JSON文档。我正在使用ExecuteScript
处理器和python
。
我的目标是在JSON keys
上创建各种URLS基础。键是数字的,它们看起来像这样:
keys = [10200, 10201, 10202, ...]
我想要的网址有3种类型, 应该是这样的:
http://google.com/10200
http://bing.com/10200
http://yahoo.com/10200
我正在尝试遍历我的keys[]
并为其包含的每个数字键创建3个特定网址。我有以下代码,我想:
从列表-->
中读取数字键创建3个网址-->
吐出流文件。
......然后读取列表中的下一个数字键并保持循环.....
我有以下代码,但是当我给它一个JSON流文件时,它现在没有做任何事情。有人可以告诉我我做错了吗?
import json
import java.io
from org.apache.commons.io import IOUtils
from java.nio.charset import StandardCharsets
from org.apache.nifi.processor.io import StreamCallback
class ModJSON(StreamCallback):
def __init__(self):
self.parentFlowFile = None
pass
def process(self, inputStream, outputStream):
text = IOUtils.toString(inputStream, StandardCharsets.UTF_8)
obj = json.loads(text)
flowfiles_list = []
outputStream.write(bytearray(json.dumps(obj.keys(), indent=4).encode('utf-8')))
for numerical_key in obj.keys():
# create 1 flowfile for each numerical_key. Each flow file should have 3 url attributes
flowFile = session.create(self.parentFlowFile)
if (flowFile != None):
flowFile = session.write(flowFile, "Does not matter")
flowFile = session.putAttribute(flowFile, "google", "http://google.com/"+ numerical_key)
flowFile = session.putAttribute(flowFile, "google", "http://bing.com/"+ numerical_key)
flowFile = session.putAttribute(flowFile, "google", "http://yahoo.com/"+ numerical_key)
flowfiles_list.append(flowFile)
for flow in flowfiles_list:
session.transfer(flow, REL_SUCCESS)
答案 0 :(得分:5)
好问题,这是流文件API的Callback方法的细微差别。您已经创建了StreamCallback的子类,但是您没有检索输入流文件或者使用它来通过类的实例覆盖内容。
在定义ModJSON类后尝试此操作:
originalFlowFile = session.get()
if(originalFlowFile != None):
originalFlowFile = session.write(flowFile, ModJSON())
session.remove(originalFlowFile)
这将获得一个输入流文件(或等待一个显示),然后调用StreamCallback来覆盖流文件的内容。在我的示例中,您将丢弃输入流文件,因此如果这是您的用例的正确行为,那么您可以只扩展InputStreamCallback而不是StreamCallback并删除outputStream.write(),如果您没有使用outputStream进行任何操作。为此,请使用InputStreamCallback替换StreamCallback,并从process()方法中删除“outputStream”参数。
在您的示例中,一旦您在上面添加我的代码段,您将使用json.dumps()命令覆盖输入内容,以及创建和传输新文件,所有这些都处于相同的关系(成功),这样就可以了如果它们的格式不同(这就是我添加session.remove()的原因)会导致问题。如果您需要原始流文件与其他文件的关系不同,请考虑InvokeScriptedProcessor而不是ExecuteScript。如果您在处理后不关心输入流文件(添加URL属性),请按照我上面的建议操作。如果他们都可以发出相同的关系(成功),那么用
替换我的session.remove()session.transfer(originalFlowFile, REL_SUCCESS)
查看我的ExecuteScript cookbook文章({3}} of 3),了解Jython(和其他语言)中这些用例的更多示例:)