将Azure用于ETL和机器学习的新知识。
我想解析一个here之类的网页,并将其转换为带有标签的结构化数据目录,以便对其进行ML转换。
我正在阅读HTTP Connector上的Azure文档,但是目前尚不清楚使用Azure数据工厂UI或脚本来逐步执行此操作的过程。
Azure数据工厂可以用于此类解析任务吗?如果可以,是否存在有关如何使用Azure数据工厂UI的清晰文档?
答案 0 :(得分:0)
我认为此时您应该查看ADF的v2。
关于您的用例,我看不到Http Connector如何解决网页的“解析”问题。该连接器可以帮助您获取页面的内容(通过执行GET请求)并将其移动到某个位置进行存储,例如blob。然后,您可以使用代码触发某种自定义活动,该代码具有将页面的html转换为所需的结构化数据目录的逻辑。然后,您可以将其提供给另一个具有所需ML转换的管道。
基本上,您将必须自己实现解析的逻辑,恕我直言,ADF可以帮助您进行业务流程的编排和数据移动,而不是在事物的“解析”方面。