Azure数据工厂HTTP连接器以解析网页

时间:2018-07-13 06:35:52

标签: azure machine-learning etl azure-data-factory

将Azure用于ETL和机器学习的新知识。

我想解析一个here之类的网页,并将其转换为带有标签的结构化数据目录,以便对其进行ML转换。

我正在阅读HTTP Connector上的Azure文档,但是目前尚不清楚使用Azure数据工厂UI或脚本来逐步执行此操作的过程。

Azure数据工厂可以用于此类解析任务吗?如果可以,是否存在有关如何使用Azure数据工厂UI的清晰文档?

1 个答案:

答案 0 :(得分:0)

我认为此时您应该查看ADF的v2。

关于您的用例,我看不到Http Connector如何解决网页的“解析”问题。该连接器可以帮助您获取页面的内容(通过执行GET请求)并将其移动到某个位置进行存储,例如blob。然后,您可以使用代码触发某种自定义活动,该代码具有将页面的html转换为所需的结构化数据目录的逻辑。然后,您可以将其提供给另一个具有所需ML转换的管道。

基本上,您将必须自己实现解析的逻辑,恕我直言,ADF可以帮助您进行业务流程的编排和数据移动,而不是在事物的“解析”方面。