从url下载pdf,返回嵌入式插件

时间:2016-04-07 09:14:56

标签: vb.net pdf web-scraping

我希望使用vb.net代码从网址下载pdf。 url返回带有嵌入pdf插件的页面。我想要能自动下载并保存pdf的代码。这是一个示例网址 http://www.sigmaaldrich.com/MSDS/MSDS/DisplayMSDSPage.do?country=PK&language=en&productNumber=S9888&brand=SIAL

1 个答案:

答案 0 :(得分:0)

  1. 使用WebClient这样

    下载源网址的HTML源代码

    Dim myWebClient As New WebClient() myWebClient.DownloadFile("http://example.com/somepage.html", "downloadedpage.html")

  2. 然后针对此downloadedpage.html运行regular expression,如下所示:iframe.+src\=\"(.+)\":它将返回第一个匹配作为PDF文件的来源。您可以在Regexp Hero

  3. 在线播放正则表达式
  4. 通过添加http://example.com加上您在步骤2上提取的子网址,撰写PDF文件的最终链接
  5. 最后,从您在步骤3
  6. 上创建的链接下载最终的pdf文件