我使用NiFi中的GetHTTP和GetHTMLElement处理器从HTML页面中获取了下一个URL。如何在另一个GetHTMLElement处理器中使用此获取的URL,因为它不会考虑或考虑其先前处理器的属性。
NiFi版本:NiFi 1.1.1
任何答案最早都会有所帮助。
由于
答案 0 :(得分:0)
正如布莱恩本德所说,
我通过在GetHTMLElement中设置基本URL并将属性名称设置为abs:href来提取下一个url并将其发送到InvokeHTTP处理器。然后我将InvokeHTTP的输出循环回到先前的GetHTMLElement以提取下一个URL。
在GetHTMLElement中将属性名称设置为abs:href有助于形成正确的URL。在我的情况下,它有助于形成完整的URL:
www.abc.com/extracted_next_url
我的基本网址为:
www.abc.com
谢谢