使用WGET如何从特定的URL模式有效地下载PDF

时间:2017-02-19 08:22:02

标签: http unix web download wget

我想从网站的某些位置下载PDF。有一个主页面,其中包含指向子页面的链接以及数千个其他链接。要下载的所有PDF链接都在子页面上。

网站非常庞大,每个级别都有多级链接和数千个链接。

我想使用WGET优化下载,以便

  1. 只考虑两个级别 - 主页&子页面。
  2. 在主页上仅选择特定类型的链接。
  3. 根据主页
  4. 上的链接名称命名文件夹

    下面给出的主页和子页面的URL模式。

    主页 - >

    • Page 1(PDF链接1 + PDF链接2 +许多其他链接)
    • 第2页(PDF链接1 + PDF链接2 +许多其他链接)
    • .......等等

    网址格式

    • 主页(https:// foo.com / mainpage)
    • 子页面(https:// foo.com/mainpage/page/?id=1)
    • PDF(https:// foo.com/a/pdf/asda.pdf,https:// foo.com/b/pdf/qwer.pdf)

    由于

0 个答案:

没有答案