如何使用数据工厂进行Web抓取

时间:2020-03-22 19:54:57

标签: azure-data-factory-2 m

我知道WebTable活动可以从网页获取表,但是我需要比表更复杂的东西。我设法以HTML格式下载了该网页并将其存储在Azure blob存储中,但是我不知道如何阅读HTML并继续该过程。

HTML与常规数据源类型不匹配,例如CSV,镶木地板等,因此将其用作源并不容易。它可以是复制活动的二进制源,但是我可以通过二进制源进行的活动非常有限。

使用Power Query,我想要实现的目标可以使用以下简单的M代码完成:

let
Source = 
 Web.BrowserContents("https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports"),
Links = 
 Html.Table(
  Source, 
  {{
   "Link", 
   "a[href^=""/docs""]", 
   each [Attributes][href]}})
in
   Links

我也曾在一个混乱的数据流中尝试过此代码,但是它无法识别“ Web”和“ HTML”对象。

我担心一个简单的电源查询任务在数据工厂中可能会更加困难。我该如何解决这个问题?

提前谢谢!

丹尼斯

0 个答案:

没有答案