从网站下载所有PDF文件

时间:2012-03-16 21:10:32

标签: c# pdf

我需要在c#中创建一个从桌面下载所有PDF的Windows桌面应用程序。我有链接到网站,但我面临的问题是PDF不在网站上的特定文件夹中,而是分散在各地。

我需要的是帮助找到所有这些链接,以便我可以下载它们或任何其他可以帮助我解决问题的建议。

感谢先进的所有帮助。

2 个答案:

答案 0 :(得分:1)

  1. 翻阅所有页面
  2. 找到所有“* .pdf”网址
  3. 重建它们,只需下载:)
  4. 请更具体地说,您是想从HTML页面还是从整个域中获取所有PDF文件?

答案 1 :(得分:0)

您要尝试做的事称为Web scraping,有些图书馆可以简化您的工作,其中之一是IronWebScraper,但它是付费的。

here上提供了大量NuGet软件包,可用于网络抓取。